返回顶部
首页 > 资讯 > 后端开发 > Python >如何使用python抓取糗事百科笑话
  • 358
分享到

如何使用python抓取糗事百科笑话

2023-06-03 05:06:19 358人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章将为大家详细讲解有关如何使用python抓取糗事百科笑话,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。抓取流程:传入参数起始url和输出文件名称,使用urllib2对页面进行抓取,每次抓取一个页面

这篇文章将为大家详细讲解有关如何使用python抓取糗事百科笑话,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

抓取流程:传入参数起始url和输出文件名称,使用urllib2对页面进行抓取,每次抓取一个页面,循环抓取,直到最后一页。使用正则表达式对抓取到的页面内容进行提取,并保存到文件中。程序如下:

# -*- coding: utf-8import urllib2import urllibimport re,osimport timeclass Joke:    #初始化数据    def __init__(self,start_url,out_put_file):        self.start_url = start_url        self.out_put_file = out_put_file        self.page = 2        self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; windows NT)'        self.headers = { 'User-Agent' : self.user_agent }    #获取页面内容的方法    def get_cotent(self,page):        try:            url = self.start_url + str(page) + '/?s=4955352'            request = urllib2.Request(url,headers=self.headers)            response = urllib2.urlopen(request)            act_url = response.geturl()            print 'init url=',url,'act url=',act_url            if url == act_url:                content = response.read()                return content            else:                return None        except urllib2.URLError, e:            if hasattr(e,"reason"):                print u"连接糗事百科失败,错误原因",e.reason                return None    #传入页面代码,返回笑话内容    def get_joke(self,page):        joke_content = self.get_cotent(page)        str = ''        if not joke_content:            print "抓取完毕"            return None        pattern = re.compile('<div class="author clearfix">.*?<h3>(.*?)</h3>.*?'        +'<div class="content">.*?<span>(.*?)',re.S)        items = re.findall(pattern,joke_content)        for item in items:            str = str + '发布人:' + item[0] + '\n' + '发布内容:' + '\n' + item[1] + '\n'+ '\n'        return str    #讲抓取到的笑话保存到文件的方法    def writeStr2File(self,out_put_file,str1,append = 'a'):        # 去掉文件,保留路径。比如 'a/b/c/d.txt' 经过下面代码会变成 'a/b/c'        subPath = out_put_file[:out_put_file.rfind('/')]        # 如果给定的路径中,文件夹不存在,则创建        if not os.path.exists(subPath):            os.makedirs(subPath)        # 打开文件并将 str 内容写入给定的文件        with open(out_put_file, append) as f:            f.write(str1.strip()+'\n')    #开始抓取页面内容,每次抓取一个页面,直到抓取完毕所有页面    def start_crawl(self):        while True:            joke_str = self.get_joke(self.page)            if not  joke_str:                break            time.sleep(1)            #print(joke_str)            self.writeStr2File(self.out_put_file,joke_str)            self.page+=1spider = Joke('Http://www.qiushibaike.com/hot/page/','d:/Python/test/out.txt')spider.start_crawl()

python的五大特点是什么

python的五大特点:1.简单易学,开发程序时,专注的是解决问题,而不是搞明白语言本身。2.面向对象,与其他主要的语言如c++和Java相比, Python以一种非常强大又简单的方式实现面向对象编程。3.可移植性,Python程序无需修改就可以在各种平台上运行。4.解释性,Python语言写的程序不需要编译成二进制代码,可以直接从源代码运行程序。5.开源,Python是 FLOSS(自由/开放源码软件)之一。

关于“如何使用python抓取糗事百科笑话”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。

--结束END--

本文标题: 如何使用python抓取糗事百科笑话

本文链接: https://lsjlt.com/news/232781.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 如何使用python抓取糗事百科笑话
    这篇文章将为大家详细讲解有关如何使用python抓取糗事百科笑话,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。抓取流程:传入参数起始url和输出文件名称,使用urllib2对页面进行抓取,每次抓取一个页面...
    99+
    2023-06-03
  • Python 简单爬虫抓取糗事百科
        该爬虫主要实现的功能是抓取糗事百科里面的一些段子。    urllib2可以用urllib2.openurl中设置Request参数,来修改Header头。如果你访问一个网站,想更改User Agent(可以伪装你的浏览器),你就要...
    99+
    2023-01-31
    爬虫 糗事 百科
  • 使用Python爬取糗事百科热门文章
      默认情况下取糗事百科热门文章只有35页,每页20条,根据下面代码可以一次性输出所有的文章,也可以选择一次输出一条信息,回车继续。不支持图片内容的显示,显示内容包括作者,热度(觉得好笑的人越多,热度越高),内容。从热度最高开始显示到最低。...
    99+
    2023-01-31
    糗事 热门文章 百科
  • Python爬取糗事百科所有段子
    import requests from lxml import etree import time headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) A...
    99+
    2023-01-31
    糗事 段子 百科
  • Python项目实战:爬取糗事百科最热门的内涵搞笑段子
    前言相信大家都很喜欢非常喜欢看那种神奇的段子,和下面神评论,哈哈,简直就是笑死人,不偿命,今天就为大家介绍一个爬取糗事百科最热门的内涵段子的案例,让你在敲代码过程,有点烦心的时候,就可以看看最新的搞笑内涵段子了,是不是超棒的呢导入基本库...
    99+
    2023-06-02
  • 玩转python爬虫之爬取糗事百科段子
    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次...
    99+
    2022-06-04
    爬虫 糗事 段子
  • 如何使用python爬虫抓取弹幕
    这篇文章主要讲解了“如何使用python爬虫抓取弹幕”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何使用python爬虫抓取弹幕”吧!一、爬虫是什么?百度百科这样说:自动获取网页内容的程序...
    99+
    2023-06-29
  • 如何使用Python逆向抓取APP数据
    今天给大伙分享一下 Python 爬虫的教程,这次主要涉及到的是关于某 APP 的逆向分析并抓取数据,关于 APP 的反爬会麻烦一些,比如 Android 端的代码写完一般会进行打包并混淆加密加固,所以除了抓包之外,...
    99+
    2022-06-02
    Python逆向抓取APP数据 Python逆向抓取 Python 抓取APP数据
  • 如何用 Python 抓取 javascript 网站?
    问题内容 我正在尝试抓取一个网站。我尝试过使用两种方法,但两种方法都没有为我提供我正在寻找的完整网站源代码。我正在尝试从下面提供的网站 url 中抓取新闻标题。 网址:“https:/...
    99+
    2024-02-10
    webdriver
  • 如何用python抓取B站数据
    目录概述我是对比快速开始1)安装过程2)获取弹幕数据3)绘制词云4)最终效果小结概述 可以获取的数据包括: video-视频模块 user-用户模块 dynamic-动态模块 这次用“Running Man”十周年特...
    99+
    2022-06-02
    python 抓取 python B站
  • 如何使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号
    本篇文章给大家分享的是有关如何使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。不知道大家过年都是怎么过的,反正栏主是在家睡了...
    99+
    2023-06-17
  • 如何用Python爬虫抓取代理IP
    本篇文章为大家展示了如何用Python爬虫抓取代理IP,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。不知道大家在访问网站的时候有没有遇到过这样的状况就是被访问的网站会给出一个提示,提示的显示是“访问...
    99+
    2023-06-02
  • 如何用python爬取知乎话题?
    因为要做观点,观点的屋子类似于知乎的话题,所以得想办法把他给爬下来,搞了半天最终还是妥妥的搞定了,代码是python写的,不懂得麻烦自学哈!懂得直接看代码,绝对可用 #coding:utf-8 """ @author:haoning @cr...
    99+
    2023-01-31
    如何用 话题 python
  • 如何用Python网络爬虫抓取百度贴吧评论区图片和视频
    如何用Python网络爬虫抓取百度贴吧评论区图片和视频,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片...
    99+
    2023-06-01
  • 如何使用Requests模块抓取网页
    这篇文章主要介绍“如何使用Requests模块抓取网页”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“如何使用Requests模块抓取网页”文章能帮助大家解决问题。爬取网页其实就是通过URL获取网页信...
    99+
    2023-07-06
  • 如何用Python抓取阿里云盘资源
    这篇文章主要介绍“如何用Python抓取阿里云盘资源”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“如何用Python抓取阿里云盘资源”文章能帮助大家解决问题。网页分析这个网站有两个搜索路线:搜索线路...
    99+
    2023-06-29
  • 如何使用Python抓取和优化所有网站图像
    目录要求和假设安装模块导入 Python 模块启动网络爬网规范化和修剪爬网数据创建输出文件夹处理图像的网址流程映像优化图像结论我发布了一个通过FTP自动优化新图像的教程。这次我们将抓...
    99+
    2023-02-24
    Python 抓取和优化所有网站图像 Python 抓取网站图像
  • 如何使用Node.js+Cheerio进行数据抓取
    这篇文章主要介绍“如何使用Node.js+Cheerio进行数据抓取”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“如何使用Node.js+Cheerio进行数据抓取...
    99+
    2024-04-02
  • 如何使用Python抓取今日头条街拍图片数据
    这篇文章主要介绍了如何使用Python抓取今日头条街拍图片数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。(1)抓取今日头条街拍图片(2)分析今日头条街拍图片结构keywo...
    99+
    2023-06-22
  • Python中如何利用appium抓取app应用数据
    今天就跟大家聊聊有关Python中如何利用appium抓取app应用数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。什么是selenium?Selenium原本是一个用于Web应用...
    99+
    2023-06-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作