首页 > 资讯 > 后端开发 > Python >python如何爬取智能翻页批量下载文件

344

分享到

python如何爬取智能翻页批量下载文件

2023-06-14 15:06:58 344人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章主要介绍python如何爬取智能翻页批量下载文件，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！Python主要用来做什么Python主要应用于：1、web开发；2、数据科学研究；3、网络爬虫；4、嵌入式应用开

这篇文章主要介绍python如何爬取智能翻页批量下载文件，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

Python主要用来做什么

Python主要应用于：1、web开发；2、数据科学研究；3、网络爬虫；4、嵌入式应用开发；5、游戏开发；6、桌面应用开发。

python爬虫遇到爬取文件内容时，需要一页页的翻页爬取，这样很是麻烦，其实可以获取每个列表信息下的文件名和文件链接，让文件名和文件链接处理为列表，保存后下载，实现智能翻页批量下载文件，本文以以京客隆为例，批量下载文件，如财务资料，他的每一份报告都是一份pdf格式的文档。以此页面为目标，下载他每个分类的文件python爬虫实战之智能翻页批量下载文件。

1、引入库

import requestsimport pandas as pdfrom lxml import etreeimport reimport os

2、解析初始页面

baseUrl ='Http://www.jkl.com.cn/cn/invest.aspx'  # 爬取页面的数据heade ={'user-agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}res =requests.get(url=baseUrl,headers=heade).text   # print(res.text)html = etree.HTML(res)res =requests.get(url=baseUrl,headers=heade).text   #   设置变量接受 基础页的响应数据# print(res.text)html = etree.HTML(res)

3、获得投资关系的分类名称和url地址

data_name = html.xpath('//div[@class="infoLis"]//a/text()') # 投资者列表的名字data_link = html.xpath('//div[@class="infoLis"]//@href')    # 全部列表的链接name = [data_name.strip() for data_name in data_name]   # 通过for循环去掉空字符link = ['http://www.jkl.com.cn/cn/'+ data_link for data_link in data_link]  # 拼接字符串# 合并为字典，方便保存文件file = dict(zip(name,link))

4、每个列表信息，保存一个文件夹

for name,link in file.items():    name=name.replace('/','.')    name=name.replace('...','报表')    # 上面的把文件名带特许字符的 强制转换为我们想要的文本类型    path = 'E:/'+ name    if not os.path.exists(path):        os.mkdir(path)        #建立储存位置

5、对列表的每个项目链接进行解析，拿到尾页

    res_list = requests.get(url = link, headers = heade).text    list_html = etree.HTML(res_list)    # print(html_erJi) 解析每个分类的链接    weiYe = list_html.xpath('//a[text()="尾页"]/@href')    # print(html_weiye)    # 拿到尾页信息    if weiYe !=[]:        # 正则提取尾页信息        get_weiYe =re.search("(\d+)'\)",html_weiye[0])        get_yeMa = get_html_weiYe.group(1)    else:        get_yeMa=1    # print(get_html_yeMa)  看看是不是提取成功

6、获取每个列表信息下的文件名和文件链接

    for get_yeMa in range(1,int(get_yeMa)+1): # 翻页        yaMa= {        '__EVENTTARGET': 'AspNetPager1',        '__EVENTARGUMENT': get_yeMa        }        get_lei_html = requests.get(url = link, headers = heade, params = yaMa).text        res3 =etree.HTML(get_lei_html)        # print(res3)        pdf_name = res3.xpath('//div[@class="newsLis"]//li/a/text()')        # print(pdf_name)        pdf_url = res3.xpath('//div[@class="newsLis"]//li//@href')

7、让文件名和文件链接处理为列表，保存后下载

  pdf_names = [pdf_name.strip() for pdf_name in pdf_name]  # print(pdf_names)  if all(pdf_url):            pdf_urls = ['http://www.jkl.com.cn'+pdf_url for pdf_url in pdf_url]            # print(pdf_url)            pdf_data=dict(zip(pdf_names,pdf_urls))   # pdf地址和名字整合为字典            for pdfName,pdfUrl in pdf_data.items():                pdfName =pdfName.replace('/','.')                res_pdf= requests.get(url =pdfUrl,headers=heade).content                houZui = pdfUrl.split('.')[-1]                pdf_pash = path + '/' + pdfName + '.'+ houZui    #                 # print(pdf_pash)                with open(pdf_pash,'wb') as f:                    f.write(res_pdf)                    print(pdfName,'下载成功')

以上是“python如何爬取智能翻页批量下载文件”这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注编程网Python频道！

您可能感兴趣的文档:

--结束END--

本文标题: python如何爬取智能翻页批量下载文件

本文链接: https://lsjlt.com/news/272677.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

python如何爬取智能翻页批量下载文件

Python主要用来做什么

python如何爬取智能翻页批量下载文件

python如何爬取自动下载网页音频文件

python批量下载文件

Python批量爬虫下载PDF文件代码实现

如何用wasfile.zip智能批量删除文件

Python爬取qq music中的音乐url及批量下载

python爬取网页如何创建文件

linux如何批量下载网页资源

SpringMVC+Ajax如何实现文件批量上传和下载功能

【Python】Python的urllib模块、urllib2模块批量进行网页下载文件

Java实现批量下载选中文件功能

如何用Python爬取各Android市场应用下载量

win10如何批量下载网页中图片

python批量下载文件的方法是什么

nodejs如何制作爬虫实现批量下载图片

python如何批量翻译excel表格中的英文

JS如何实现单个或多个文件批量下载

如何使用FTP命令批量自动下载bat文件

Python批量下载ts视频文件，并用ffmpeg合并

python实现批量提取指定文件夹下同类型文件

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义