返回顶部
首页 > 资讯 > 后端开发 > Python >Python异步爬取知乎热榜的方法
  • 125
分享到

Python异步爬取知乎热榜的方法

2023-06-30 00:06:43 125人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

今天小编给大家分享一下python异步爬取知乎热榜的方法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。一、错误代码:摘要和详

今天小编给大家分享一下python异步爬取知乎热榜的方法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。

一、错误代码:摘要和详细的url获取不到

import asynciofrom bs4 import BeautifulSoupimport aioHttp headers={    'user-agent': 'Mozilla/5.0 (windows NT 6.1; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/86.0.4240.198 Safari/537.36',    'referer': 'https://www.baidu.com/s?tn=02003390_43_hao_pg&isource=infinity&iname=baidu&itype=web&ie=utf-8&wd=%E7%9F%A5%E4%B9%8E%E7%83%AD%E6%A6%9C'}async def getPages(url):    async with aiohttp.ClientSession(headers=headers) as session:        async with session.get(url) as resp:            print(resp.status)  # 打印状态码            html=await resp.text()    soup=BeautifulSoup(html,'lxml')    items=soup.select('.HotList-item')    for item in items:        title=item.select('.HotList-itemTitle')[0].text        try:            abstract=item.select('.HotList-itemExcerpt')[0].text        except:            abstract='No Abstract'        hot=item.select('.HotList-itemMetrics')[0].text        try:            img=item.select('.HotList-itemImGContainer img')['src']        except:            img='No Img'        print("{}\n{}\n{}".fORMat(title,abstract,img)) if __name__ == '__main__':    url='https://www.zhihu.com/billboard'    loop=asyncio.get_event_loop()    loop.run_until_complete(getPages(url))    loop.close()

Python异步爬取知乎热榜的方法

二、查看js代码

发现详细链接、图片链接、问题摘要等都在JS里面(CSDN的开发者助手插件确实好用)

Python异步爬取知乎热榜的方法

正则表达式获取上述信息:

Python异步爬取知乎热榜的方法

接下来就是详细的代码啦

import asyncioimport JSONimport reimport aiohttp headers={    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',    'referer': 'https://www.baidu.com/s?tn=02003390_43_hao_pg&isource=infinity&iname=baidu&itype=web&ie=utf-8&wd=%E7%9F%A5%E4%B9%8E%E7%83%AD%E6%A6%9C'}async def getPages(url):    async with aiohttp.ClientSession(headers=headers) as session:        async with session.get(url) as resp:            print(resp.status)  # 打印状态码            html=await resp.text()     regex=re.compile('"hotList":(.*?),"guestFeeds":')    text=regex.search(html).group(1)    # print(json.loads(text))   # json换成字典格式    for item in json.loads(text):        title=item['target']['titleArea']['text']        question=item['target']['excerptArea']['text']        hot=item['target']['metricsArea']['text']        link=item['target']['link']['url']        img=item['target']['imageArea']['url']        if not img:            img='No Img'        if not question:            question='No Abstract'        print("Title:{}\nPopular:{}\nQuestion:{}\nLink:{}\nImg:{}".format(title,hot,question,link,img)) if __name__ == '__main__':    url='https://www.zhihu.com/billboard'    loop=asyncio.get_event_loop()    loop.run_until_complete(getPages(url))    loop.close()

以上就是“Python异步爬取知乎热榜的方法”这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注编程网Python频道。

--结束END--

本文标题: Python异步爬取知乎热榜的方法

本文链接: https://lsjlt.com/news/326844.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python异步爬取知乎热榜的方法
    今天小编给大家分享一下Python异步爬取知乎热榜的方法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。一、错误代码:摘要和详...
    99+
    2023-06-30
  • Python异步爬取知乎热榜实例分享
    目录一、错误代码:摘要和详细的url获取不到二、查看JS代码一、错误代码:摘要和详细的url获取不到 import asyncio from bs4 import Beautiful...
    99+
    2024-04-02
  • 如何使用python爬取知乎热榜Top50数据
    目录1、导入第三方库2、程序的主函数3、正则表达式匹配数据4、程序运行结果5、程序源代码1、导入第三方库 import urllib.request,urllib.error ...
    99+
    2024-04-02
  • 一个简单的python爬虫,爬取知乎
    一个简单的python爬虫,爬取知乎主要实现 爬取一个收藏夹 里 所有问题答案下的 图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码:# -*- coding:utf-8 ...
    99+
    2023-06-02
  • Python爬虫之模拟知乎登录的方法教程
    前言 对于经常写爬虫的大家都知道,有些页面在登录之前是被禁止抓取的,比如知乎的话题页面就要求用户登录才能访问,而 “登录” 离不开 HTTP 中的 Cookie 技术。 登录原理 Cookie 的原理非常简...
    99+
    2022-06-04
    爬虫 方法 教程
  • python 爬取知乎回答下的微信8.0状态视频
    目录寻找 url 下载视频 执行代码下载:最后的话 回答来源 微信 8.0 版本更新后,可以设置个人状态,状态里面可以添加火录制视频,很快状态视频就火了,可以看下知乎热榜有没有微信8...
    99+
    2024-04-02
  • python起点网月票榜字体反爬的方法是什么
    本篇内容主要讲解“python起点网月票榜字体反爬的方法是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“python起点网月票榜字体反爬的方法是什么”吧!1.解析过程老规矩哈我们先进入起点月...
    99+
    2023-06-21
  • Python爬取konachan的方法是什么
    要使用Python爬取konachan网站的方法,可以使用以下步骤:1. 导入所需的库:使用`requests`库发送HTTP请求,...
    99+
    2023-08-23
    Python
  • python爬虫爬取指定内容的解决方法
    目录解决办法:实列代码如下:(以我们学校为例)爬取一些网站下指定的内容,一般来说可以用xpath来直接从网页上来获取,但是当我们获取的内容不唯一的时候我们无法选择,我们所需要的、所指...
    99+
    2024-04-02
  • python爬虫实战之爬取百度首页的方法
    这篇文章给大家分享的是有关python爬虫实战之爬取百度首页的方法的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。Python的优点有哪些1、简单易用,与C/C++、Java、C# 等传统语言相比,Python对代...
    99+
    2023-06-14
  • Python使用爬虫爬取贵阳房价的方法详解
    目录1序言1.1生存压力带来的哲思1.2 买房&房奴2爬虫 2.1基本概念2.2 爬虫的基本流程 3爬取贵阳房价并写入表格3.1结果展...
    99+
    2024-04-02
  • Python爬取三国演义的实现方法
    本文的爬虫教程分为四部: 1.从哪爬 where 2.爬什么 what 3.怎么爬 how 4.爬了之后信息如何保存 save 一、从哪爬 三国演义 二、...
    99+
    2022-06-04
    演义 方法 Python
  • python中使用XPath爬取小说的方法
    这篇“python中使用XPath爬取小说的方法”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“python中使用XPath爬...
    99+
    2023-06-30
  • Python同步方法变为异步方法的小技巧分享
    目录背景怎么做?Asyncerawaitableaioify总结背景 在我们平时的FastApi工作中,经常会用到一些异步的操作,为了保持一致,我们一般会编写配套的异步代码。 但如果...
    99+
    2024-04-02
  • Python异步中loop抛出异常的解决方法
    这篇文章主要介绍Python异步中loop抛出异常的解决方法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的是解决问题,而不是搞明白语...
    99+
    2023-06-14
  • python异步回调的方法是什么
    在Python中,可以使用以下几种方法实现异步回调:1. 使用asyncio模块:asyncio是Python标准库中的异步编程框架...
    99+
    2023-09-22
    python
  • 通过python爬虫mechanize库爬取本机ip地址的方法
    目录需求分析实现分析实际使用完整代码演示需求分析 最近,各平台更新的ip属地功能非常火爆,因此呢,也出现了许多新的网络用语,比如说“xx加几分”,&ldquo...
    99+
    2024-04-02
  • Python爬虫代理池搭建的方法步骤
    搭建Python爬虫代理池的方法步骤如下:1. 安装所需的依赖库:首先,确保你已经安装了Python和pip。然后使用pip安装所需的库,如requests、beautifulsoup、flask等。2. 获取代理IP:你可以从一些免费...
    99+
    2023-08-11
    Python
  • Python爬取APP下载链接的实现方法
    首先是准备工作 Python 2.7.11:下载python Pycharm:下载Pycharm 其中python2和python3目前同步发行,我这里使用的是python2作为环境。Pycharm是一款比...
    99+
    2022-06-04
    下载链接 方法 Python
  • python爬取动态网页的方法是什么
    Python爬取动态网页的方法有以下几种:1. 使用Selenium库:Selenium是一个自动化测试工具,可以模拟浏览器操作,包...
    99+
    2023-09-15
    python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作