首页 > 资讯 > 后端开发 > Python >【Python3爬虫】用Python中的

571

分享到

【Python3爬虫】用Python中的

爬虫 Python 2023-01-30 23:01:05 571人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

当你看着你的博客的阅读量慢慢增加的时候，内心不禁有了些小激动，但是不得不吐槽一下--博客园并不会显示你的博客的总阅读量是多少。而这一篇博客就将教你怎么利用队列这种结构来编写爬虫，最终获取你的博客的总阅读量。队列是常用数据结构之一

当你看着你的博客的阅读量慢慢增加的时候，内心不禁有了些小激动，但是不得不吐槽一下--博客园并不会显示你的博客的总阅读量是多少。而这一篇博客就将教你怎么利用队列这种结构来编写爬虫，最终获取你的博客的总阅读量。

队列是常用数据结构之一，在python3中要用queue这个模块来实现。queue这个模块实现了三种队列：

class queue.Queue(maxsize=0)：FIFO队列（first in first out），先进先出，第一个进入队列的元素会第一个从队列中出来。maxsize用于设置队列里的元素总数，若小于等于0，则总数为无限大。

class queue.LifoQueue(maxsize=0)：LIFO队列（last in first out），后进先出，最后一个进入队列的元素会第一个从队列中出来。maxsize用于设置队列里的元素总数，若小于等于0，则总数为无限大。

class queue.PriorityQueue(maxsize=0)：优先级队列（first in first out），给队列中的元素分配一个数字标记其优先级。maxsize用于设置队列里的元素总数，若小于等于0，则总数为无限大。

这次我使用的是Queue这个队列，Queue对象中包含的主要方法如下：

Queue.put(item, block=True, timeout=None)：将元素放入到队列中。block用于设置是否阻塞，如果timeout为正数，表明最多阻塞多少秒。

Queue.get(block=True, timeout=None)：从队列中删除并返回一个元素，如果队列为空，则报错。block用于设置是否阻塞，如果timeout为正数，表明最多阻塞多少秒。

Queue.empty()：判断队列是否为空，如果队列为空，返回False，否则返回True。

首先进入博客，然后打开开发者工具选择查看元素，如下：

这里只要定位到类名为postDesc的div节点就可以提取到我们想要的阅读量信息了，这一步是很简单的。问题在于如何实现翻页？先定位到下一页查看一下元素：

好像定位到id为nav_next_page的div节点就行了，是这样吗？点击进入下一页，然后再次定位查看一下：

可以看到用之前定位div节点的方法已经不行了，怎么办呢？我的解决办法是用正则表达式进行匹配，因为下一页对应的元素都是这样的：

<a href="链接">下一页</a>

所以只需要进行一下正则匹配就能获取下一页的链接了，如果获取不到，就说明已经是最后一页了！

 1 """
 2 Version: python3.5
 3 Author: ONIOn
 4 Site: Http://www.cnblogs.com/TM0831/
 5 Time: 2019/3/11 10:46
 6 """
 7 import re
 8 import queue
 9 import requests
10 from lxml import etree
11 
12 
13 class CrawlQueue:
14     def __init__(self):
15         """
16         初始化
17         """
18         self.q = queue.Queue()  # 爬取队列
19         self.username = input("请输入您的博客名称：")
20         self.q.put("http://www.cnblogs.com/" + self.username)
21         self.urls = ["http://www.cnblogs.com/" + self.username]  # 记录爬取过的url
22         self.result = []  # 储存阅读量数据
23 
24     def request(self, url):
25         """
26         发送请求和解析网页
27         :param url: 链接
28         :return:
29         """
30         res = requests.get(url)
31         et = etree.html(res.text)
32         lst = et.xpath('//*[@class="postDesc"]/text()')
33         for i in lst:
34             num = i.split(" ")[5].lstrip("阅读(").rstrip(")")
35             self.result.append(int(num))
36 
37         # 下一页
38         next_page = re.search('<a href="(.*?)">下一页</a>', res.text)
39         if next_page:
40             href = next_page.group().split('&nbsp;')[-1].replace('<a href="', '').replace('">下一页</a>', '')
41             if href not in self.urls:  # 确保之前没有爬过
42                 self.q.put(href)
43                 self.urls.append(href)
44 
45     def get_url(self):
46         """
47         从爬取队列中取出url
48         :return:
49         """
50         if not self.q.empty():
51             url = self.q.get()
52             self.request(url)
53 
54     def main(self):
55         """
56         主函数
57         :return:
58         """
59         while not self.q.empty():
60             self.get_url()
61 
62 
63 if __name__ == '__main__':
64     crawl = CrawlQueue()
65     crawl.main()
66     print("您的博客总阅读量为：{}".fORMat(sum(crawl.result)))

完整代码已上传到GitHub！

您可能感兴趣的文档:

--结束END--

本文标题: 【Python3爬虫】用Python中的

本文链接: https://lsjlt.com/news/181363.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

【Python3爬虫】用Python中的

【Python3爬虫】用Python中的

【Python3爬虫】拉勾网爬虫

Python3 爬虫 requests

Python3网络爬虫实战-10、爬虫框

Python3网络爬虫实战-17、爬虫基

Python3网络爬虫实战-11、爬虫框

Python3网络爬虫实战-15、爬虫基

Python3网络爬虫(十一)：爬虫黑科

python3爬虫中多线程的使用示例

python3爬虫之开篇

python3爬虫-通过requests

python3爬虫-通过selenium

Python3 爬虫 scrapy框架

【Python3爬虫】常见反爬虫措施及解

Python3爬虫中如何安装RedisDump

python爬虫中分布式爬虫的作用是什么

如何利用python3爬虫爬取漫画岛

【Python3爬虫】使用异步协程编写爬

python3 爬虫笔记（一）beaut

python3爬虫-知乎登陆

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义