返回顶部
首页 > 资讯 > 后端开发 > Python >使用Python爬取糗事百科热门文章
  • 503
分享到

使用Python爬取糗事百科热门文章

糗事热门文章百科 2023-01-31 05:01:43 503人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

  默认情况下取糗事百科热门文章只有35页,每页20条,根据下面代码可以一次性输出所有的文章,也可以选择一次输出一条信息,回车继续。不支持图片内容的显示,显示内容包括作者,热度(觉得好笑的人越多,热度越高),内容。从热度最高开始显示到最低。

  默认情况下取糗事百科热门文章只有35页,每页20条,根据下面代码可以一次性输出所有的文章,也可以选择一次输出一条信息,回车继续。不支持图片内容的显示,显示内容包括作者,热度(觉得好笑的人越多,热度越高),内容。从热度最高开始显示到最低。实现代码如下:

#!/usr/bin/python
#coding:utf8
"""
爬取糗事百科热门文章
"""

import urllib2
import re

#模拟浏览器访问,否则无法访问
user_agent = r"Mozilla/5.0 (windows NT 6.1; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/59.0.3071.115 Safari/537.36"

#匹配作者,内容和认为段子好笑的人数
regex1 = re.compile(r'<h2>(.*?)</h2>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>', re.S)

n = 1
for i in range(0,35):
    
    url = "https://www.qiushibaike.com/8hr/page/%s/" %(n)
    
    request = urllib2.Request(url, headers={"User-Agent":user_agent})
    response = urllib2.urlopen(request)
    response = response.read()
    
    paragraph = regex1.findall(response)
    
    for i in paragraph:
        author = i[0]
        text = re.sub('<br/>', '\n', i[1])
        count = i[2]
        print("作者:%s" %(author))
        print("好笑:%s" %(count))
        print("内容:%s" %(text))
        print("\n")
        #注释下面三行就一次性显示所有文章
        q = raw_input("退出请输入q/Q,继教看请直接回车:")
        if q == "q" or q == "Q":
            break
    if q == "q" or q == "Q":
            break
    n += 1

.


--结束END--

本文标题: 使用Python爬取糗事百科热门文章

本文链接: https://lsjlt.com/news/189087.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 使用Python爬取糗事百科热门文章
      默认情况下取糗事百科热门文章只有35页,每页20条,根据下面代码可以一次性输出所有的文章,也可以选择一次输出一条信息,回车继续。不支持图片内容的显示,显示内容包括作者,热度(觉得好笑的人越多,热度越高),内容。从热度最高开始显示到最低。...
    99+
    2023-01-31
    糗事 热门文章 百科
  • 03_多协程爬取糗事百科热图
    今天在使用正则表达式时未能解决实际问题,于是使用bs4库完成匹配,通过反复测试,最终解决了实际的问题,加深了对bs4.BeautifulSoup模块的理解。 爬取流程 前奏: 分析糗事百科热图板块的网址,因为要进行翻页爬取内容,所以分析不...
    99+
    2023-01-30
    糗事 百科 热图
  • python3 爬虫之爬取糗事百科
    闲着没事爬个糗事百科的笑话看看python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误http.client.RemoteDisconnected: Remote end closed connect...
    99+
    2023-01-31
    爬虫 糗事 百科
  • Python 简单爬虫抓取糗事百科
        该爬虫主要实现的功能是抓取糗事百科里面的一些段子。    urllib2可以用urllib2.openurl中设置Request参数,来修改Header头。如果你访问一个网站,想更改User Agent(可以伪装你的浏览器),你就要...
    99+
    2023-01-31
    爬虫 糗事 百科
  • Python爬取糗事百科所有段子
    import requests from lxml import etree import time headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) A...
    99+
    2023-01-31
    糗事 段子 百科
  • Python项目实战:爬取糗事百科最热门的内涵搞笑段子
    前言相信大家都很喜欢非常喜欢看那种神奇的段子,和下面神评论,哈哈,简直就是笑死人,不偿命,今天就为大家介绍一个爬取糗事百科最热门的内涵段子的案例,让你在敲代码过程,有点烦心的时候,就可以看看最新的搞笑内涵段子了,是不是超棒的呢导入基本库...
    99+
    2023-06-02
  • 玩转python爬虫之爬取糗事百科段子
    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次...
    99+
    2022-06-04
    爬虫 糗事 段子
  • Python 制作糗事百科爬虫实例
    早上起来闲来无事做,莫名其妙的就弹出了糗事百科的段子,转念一想既然你送上门来,那我就写个爬虫到你网站上爬一爬吧,一来当做练练手,二来也算找点乐子。 其实这两天也正在接触数据库的内容,可以将爬取下来的数据保存...
    99+
    2022-06-04
    爬虫 糗事 实例
  • 如何使用python抓取糗事百科笑话
    这篇文章将为大家详细讲解有关如何使用python抓取糗事百科笑话,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。抓取流程:传入参数起始url和输出文件名称,使用urllib2对页面进行抓取,每次抓取一个页面...
    99+
    2023-06-03
  • 怎么用Python爬取7日热门的文章
    怎么用Python爬取7日热门的文章,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。前言相信大家都很喜欢看那种非常热门并且很好的文章,这种文章往往耐人寻味,有理有据,语句畅通...
    99+
    2023-06-02
  • Python爬虫实战演练之采集糗事百科段子数据
    目录知识点爬虫基本步骤:爬虫代码导入所需模块获取网页地址发送请求数据解析保存数据运行代码,得到数据知识点 1.爬虫基本步骤 2.requests模块 3.parsel模块 4.xpa...
    99+
    2024-04-02
  • 用Python实现爬取百度热搜信息
    目录前言库函数准备数据爬取网页爬取数据解析数据保存总结前言 何为爬虫,其实就是利用计算机模拟人对网页的操作 例如 模拟人类浏览购物网站 使用爬虫前一定要看目标网站可刑不可刑 :-) ...
    99+
    2024-04-02
  • 使用python怎么爬取爱奇艺热门电影
    这篇文章将为大家详细讲解有关使用python怎么爬取爱奇艺热门电影,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。一、首先我们要找到目标找到目标先分析一下网页(url:https://list...
    99+
    2023-06-15
  • 怎么用Python实现爬取百度热搜信息
    小编给大家分享一下怎么用Python实现爬取百度热搜信息,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!前言何为爬虫,其实就是利用计算机模拟人对网页的操作例如 模拟人类浏览购物网站使用爬虫前一定要看目标网站可刑不可刑 :-)...
    99+
    2023-06-26
  • 教你怎么用python爬取爱奇艺热门电影
    目录一、首先我们要找到目标二、F12查看网页源代码三、进行代码实现,获取想要资源。四、查看现象一、首先我们要找到目标 找到目标先分析一下网页(url:https://list.iq...
    99+
    2024-04-02
  • python 使用requests爬取百度图片并显示
    爬取百度图片并显示 引言一、图片显示二、代码详解2.1 得到网页内容2.2 提取图片url2.3 图片显示 三、完整代码 引言 爬虫(Spider),又称网络爬虫(Web Crawle...
    99+
    2023-10-04
    python 爬虫 百度图片 requests
  • 如何使用python爬取知乎热榜Top50数据
    目录1、导入第三方库2、程序的主函数3、正则表达式匹配数据4、程序运行结果5、程序源代码1、导入第三方库 import urllib.request,urllib.error ...
    99+
    2024-04-02
  • 使用Python怎么爬取微博热搜关键词
    今天就跟大家聊聊有关使用Python怎么爬取微博热搜关键词,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和...
    99+
    2023-06-14
  • 使用python怎么爬取微博的热搜数据
    使用python怎么爬取微博的热搜数据?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。主要用到requests和bf4两个库将获得的信息保存在d://hotsea...
    99+
    2023-06-06
  • 详解用python实现爬取CSDN热门评论URL并存入redis
    一、配置webdriver 下载谷歌浏览器驱动,并配置好 import time import random from PIL import Image from seleniu...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作