Python 官方文档:入门教程 => 点击学习
小编给大家分享一下怎么用python爬虫获取豆瓣的书评,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python的五大特点是什么Python的五大特点:1.简单易
小编给大家分享一下怎么用python爬虫获取豆瓣的书评,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
Python的五大特点:1.简单易学,开发程序时,专注的是解决问题,而不是搞明白语言本身。2.面向对象,与其他主要的语言如c++和Java相比, Python以一种非常强大又简单的方式实现面向对象编程。3.可移植性,Python程序无需修改就可以在各种平台上运行。4.解释性,Python语言写的程序不需要编译成二进制代码,可以直接从源代码运行程序。5.开源,Python是 FLOSS(自由/开放源码软件)之一。
1、分析网站
整个豆瓣的框架设计都是简单的静态页面,只需要页面代码参数。
urls=[]pages=79 #可以根据页面数据来设定for page in range(0,pages): url = 'https://book.douban.com/subject/26369699/reviews?start={}'.fORMat(page) urls=urls.append(url)
通过观察每个页面的网站规则,可以推测start的计算公式,例如上面的代码自动生成所有数据的地址。
2、爬取网页
需要登录并将cookie传递给请求头,以便正常请求数据。您可以在开发人员模型的RequestHeaders中获得cookies值。
def gethtml(url): headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36', 'Connection': 'keep-alive', 'Cookie': '', #你的cookies 'Referer': 'Https://book.douban.com/subject/26369699/reviews', } request = urllib.request.Request(url,headers=headers) response = urllib.request.urlopen(request) content = response.read().decode('utf-8') return content
以上是“怎么用python爬虫获取豆瓣的书评”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网Python频道!
--结束END--
本文标题: 怎么用python爬虫获取豆瓣的书评
本文链接: https://lsjlt.com/news/275950.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
2024-03-01
2024-03-01
2024-03-01
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0