首页 > 资讯 > 后端开发 > Python >Python异步爬取知乎热榜的方法

125

分享到

Python异步爬取知乎热榜的方法

2023-06-30 00:06:43 125人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

今天小编给大家分享一下python异步爬取知乎热榜的方法的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。一、错误代码：摘要和详

今天小编给大家分享一下python异步爬取知乎热榜的方法的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。

一、错误代码：摘要和详细的url获取不到

import asynciofrom bs4 import BeautifulSoupimport aioHttp headers={    'user-agent': 'Mozilla/5.0 (windows NT 6.1; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/86.0.4240.198 Safari/537.36',    'referer': 'https://www.baidu.com/s?tn=02003390_43_hao_pg&isource=infinity&iname=baidu&itype=web&ie=utf-8&wd=%E7%9F%A5%E4%B9%8E%E7%83%AD%E6%A6%9C'}async def getPages(url):    async with aiohttp.ClientSession(headers=headers) as session:        async with session.get(url) as resp:            print(resp.status)  # 打印状态码            html=await resp.text()    soup=BeautifulSoup(html,'lxml')    items=soup.select('.HotList-item')    for item in items:        title=item.select('.HotList-itemTitle')[0].text        try:            abstract=item.select('.HotList-itemExcerpt')[0].text        except:            abstract='No Abstract'        hot=item.select('.HotList-itemMetrics')[0].text        try:            img=item.select('.HotList-itemImGContainer img')['src']        except:            img='No Img'        print("{}\n{}\n{}".fORMat(title,abstract,img)) if __name__ == '__main__':    url='https://www.zhihu.com/billboard'    loop=asyncio.get_event_loop()    loop.run_until_complete(getPages(url))    loop.close()

Python异步爬取知乎热榜的方法

二、查看js代码

发现详细链接、图片链接、问题摘要等都在JS里面（CSDN的开发者助手插件确实好用）

Python异步爬取知乎热榜的方法

正则表达式获取上述信息:

Python异步爬取知乎热榜的方法

接下来就是详细的代码啦

import asyncioimport JSONimport reimport aiohttp headers={    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',    'referer': 'https://www.baidu.com/s?tn=02003390_43_hao_pg&isource=infinity&iname=baidu&itype=web&ie=utf-8&wd=%E7%9F%A5%E4%B9%8E%E7%83%AD%E6%A6%9C'}async def getPages(url):    async with aiohttp.ClientSession(headers=headers) as session:        async with session.get(url) as resp:            print(resp.status)  # 打印状态码            html=await resp.text()     regex=re.compile('"hotList":(.*?),"guestFeeds":')    text=regex.search(html).group(1)    # print(json.loads(text))   # json换成字典格式    for item in json.loads(text):        title=item['target']['titleArea']['text']        question=item['target']['excerptArea']['text']        hot=item['target']['metricsArea']['text']        link=item['target']['link']['url']        img=item['target']['imageArea']['url']        if not img:            img='No Img'        if not question:            question='No Abstract'        print("Title：{}\nPopular：{}\nQuestion：{}\nLink：{}\nImg：{}".format(title,hot,question,link,img)) if __name__ == '__main__':    url='https://www.zhihu.com/billboard'    loop=asyncio.get_event_loop()    loop.run_until_complete(getPages(url))    loop.close()

以上就是“Python异步爬取知乎热榜的方法”这篇文章的所有内容，感谢各位的阅读！相信大家阅读完这篇文章都有很大的收获，小编每天都会为大家更新不同的知识，如果还想学习更多的知识，请关注编程网Python频道。

您可能感兴趣的文档:

--结束END--

本文标题: Python异步爬取知乎热榜的方法

本文链接: https://lsjlt.com/news/326844.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python异步爬取知乎热榜的方法

一、错误代码：摘要和详细的url获取不到

二、查看js代码

Python异步爬取知乎热榜的方法

Python异步爬取知乎热榜实例分享

如何使用python爬取知乎热榜Top50数据

一个简单的python爬虫,爬取知乎

Python爬虫之模拟知乎登录的方法教程

python 爬取知乎回答下的微信8.0状态视频

python起点网月票榜字体反爬的方法是什么

Python爬取konachan的方法是什么

python爬虫爬取指定内容的解决方法

python爬虫实战之爬取百度首页的方法

Python使用爬虫爬取贵阳房价的方法详解

Python爬取三国演义的实现方法

python中使用XPath爬取小说的方法

Python同步方法变为异步方法的小技巧分享

Python异步中loop抛出异常的解决方法

python异步回调的方法是什么

通过python爬虫mechanize库爬取本机ip地址的方法

Python爬虫代理池搭建的方法步骤

Python爬取APP下载链接的实现方法

python爬取动态网页的方法是什么

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义