首页 > 资讯 > 后端开发 > Python >使用Python爬取糗事百科热门文章

503

分享到

使用Python爬取糗事百科热门文章

糗事热门文章百科 2023-01-31 05:01:43 503人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

默认情况下取糗事百科热门文章只有35页，每页20条，根据下面代码可以一次性输出所有的文章，也可以选择一次输出一条信息，回车继续。不支持图片内容的显示，显示内容包括作者，热度（觉得好笑的人越多，热度越高），内容。从热度最高开始显示到最低。

默认情况下取糗事百科热门文章只有35页，每页20条，根据下面代码可以一次性输出所有的文章，也可以选择一次输出一条信息，回车继续。不支持图片内容的显示，显示内容包括作者，热度（觉得好笑的人越多，热度越高），内容。从热度最高开始显示到最低。实现代码如下：

#!/usr/bin/python
#coding:utf8
"""
爬取糗事百科热门文章
"""

import urllib2
import re

#模拟浏览器访问，否则无法访问
user_agent = r"Mozilla/5.0 (windows NT 6.1; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/59.0.3071.115 Safari/537.36"

#匹配作者，内容和认为段子好笑的人数
regex1 = re.compile(r'<h2>(.*?)</h2>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>', re.S)

n = 1
for i in range(0,35):
    
    url = "https://www.qiushibaike.com/8hr/page/%s/" %(n)
    
    request = urllib2.Request(url, headers={"User-Agent":user_agent})
    response = urllib2.urlopen(request)
    response = response.read()
    
    paragraph = regex1.findall(response)
    
    for i in paragraph:
        author = i[0]
        text = re.sub('<br/>', '\n', i[1])
        count = i[2]
        print("作者：%s" %(author))
        print("好笑：%s" %(count))
        print("内容：%s" %(text))
        print("\n")
        #注释下面三行就一次性显示所有文章
        q = raw_input("退出请输入q/Q，继教看请直接回车：")
        if q == "q" or q == "Q":
            break
    if q == "q" or q == "Q":
            break
    n += 1

您可能感兴趣的文档:

--结束END--

本文标题: 使用Python爬取糗事百科热门文章

本文链接: https://lsjlt.com/news/189087.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

使用Python爬取糗事百科热门文章

使用Python爬取糗事百科热门文章

03_多协程爬取糗事百科热图

python3 爬虫之爬取糗事百科

Python 简单爬虫抓取糗事百科

Python爬取糗事百科所有段子

Python项目实战:爬取糗事百科最热门的内涵搞笑段子

玩转python爬虫之爬取糗事百科段子

Python 制作糗事百科爬虫实例

如何使用python抓取糗事百科笑话

怎么用Python爬取7日热门的文章

Python爬虫实战演练之采集糗事百科段子数据

用Python实现爬取百度热搜信息

使用python怎么爬取爱奇艺热门电影

怎么用Python实现爬取百度热搜信息

教你怎么用python爬取爱奇艺热门电影

python 使用requests爬取百度图片并显示

如何使用python爬取知乎热榜Top50数据

使用Python怎么爬取微博热搜关键词

使用python怎么爬取微博的热搜数据

详解用python实现爬取CSDN热门评论URL并存入redis

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义