首页 > 资讯 > 后端开发 > Python >如何使用python抓取糗事百科笑话

358

分享到

如何使用python抓取糗事百科笑话

2023-06-03 05:06:19 358人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章将为大家详细讲解有关如何使用python抓取糗事百科笑话，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。抓取流程：传入参数起始url和输出文件名称，使用urllib2对页面进行抓取，每次抓取一个页面

这篇文章将为大家详细讲解有关如何使用python抓取糗事百科笑话，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

抓取流程：传入参数起始url和输出文件名称，使用urllib2对页面进行抓取，每次抓取一个页面，循环抓取，直到最后一页。使用正则表达式对抓取到的页面内容进行提取，并保存到文件中。程序如下：

# -*- coding: utf-8import urllib2import urllibimport re,osimport timeclass Joke:    #初始化数据    def __init__(self,start_url,out_put_file):        self.start_url = start_url        self.out_put_file = out_put_file        self.page = 2        self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; windows NT)'        self.headers = { 'User-Agent' : self.user_agent }    #获取页面内容的方法    def get_cotent(self,page):        try:            url = self.start_url + str(page) + '/?s=4955352'            request = urllib2.Request(url,headers=self.headers)            response = urllib2.urlopen(request)            act_url = response.geturl()            print 'init url=',url,'act url=',act_url            if url == act_url:                content = response.read()                return content            else:                return None        except urllib2.URLError, e:            if hasattr(e,"reason"):                print u"连接糗事百科失败,错误原因",e.reason                return None    #传入页面代码，返回笑话内容    def get_joke(self,page):        joke_content = self.get_cotent(page)        str = ''        if not joke_content:            print "抓取完毕"            return None        pattern = re.compile('<div class="author clearfix">.*?<h3>(.*?)</h3>.*?'        +'<div class="content">.*?<span>(.*?)',re.S)        items = re.findall(pattern,joke_content)        for item in items:            str = str + '发布人:' + item[0] + '\n' + '发布内容:' + '\n' + item[1] + '\n'+ '\n'        return str    #讲抓取到的笑话保存到文件的方法    def writeStr2File(self,out_put_file,str1,append = 'a'):        # 去掉文件，保留路径。比如 'a/b/c/d.txt' 经过下面代码会变成 'a/b/c'        subPath = out_put_file[:out_put_file.rfind('/')]        # 如果给定的路径中，文件夹不存在，则创建        if not os.path.exists(subPath):            os.makedirs(subPath)        # 打开文件并将 str 内容写入给定的文件        with open(out_put_file, append) as f:            f.write(str1.strip()+'\n')    #开始抓取页面内容，每次抓取一个页面，直到抓取完毕所有页面    def start_crawl(self):        while True:            joke_str = self.get_joke(self.page)            if not  joke_str:                break            time.sleep(1)            #print(joke_str)            self.writeStr2File(self.out_put_file,joke_str)            self.page+=1spider = Joke('Http://www.qiushibaike.com/hot/page/','d:/Python/test/out.txt')spider.start_crawl()

python的五大特点是什么

python的五大特点：1.简单易学，开发程序时，专注的是解决问题,而不是搞明白语言本身。2.面向对象，与其他主要的语言如c++和Java相比, Python以一种非常强大又简单的方式实现面向对象编程。3.可移植性，Python程序无需修改就可以在各种平台上运行。4.解释性，Python语言写的程序不需要编译成二进制代码,可以直接从源代码运行程序。5.开源，Python是 FLOSS(自由/开放源码软件)之一。

关于“如何使用python抓取糗事百科笑话”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

您可能感兴趣的文档:

--结束END--

本文标题: 如何使用python抓取糗事百科笑话

本文链接: https://lsjlt.com/news/232781.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

如何使用python抓取糗事百科笑话

python的五大特点是什么

如何使用python抓取糗事百科笑话

Python 简单爬虫抓取糗事百科

使用Python爬取糗事百科热门文章

Python爬取糗事百科所有段子

Python项目实战:爬取糗事百科最热门的内涵搞笑段子

玩转python爬虫之爬取糗事百科段子

如何使用python爬虫抓取弹幕

如何使用Python逆向抓取APP数据

如何用 Python 抓取 javascript 网站？

如何用python抓取B站数据

如何使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号

如何用Python爬虫抓取代理IP

如何用python爬取知乎话题？

如何用Python网络爬虫抓取百度贴吧评论区图片和视频

如何使用Requests模块抓取网页

如何用Python抓取阿里云盘资源

如何使用Python抓取和优化所有网站图像

如何使用Node.js+Cheerio进行数据抓取

如何使用Python抓取今日头条街拍图片数据

Python中如何利用appium抓取app应用数据

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义