返回顶部
首页 > 资讯 > 后端开发 > Python >03_多协程爬取糗事百科热图
  • 446
分享到

03_多协程爬取糗事百科热图

糗事百科热图 2023-01-30 23:01:38 446人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

今天在使用正则表达式时未能解决实际问题,于是使用bs4库完成匹配,通过反复测试,最终解决了实际的问题,加深了对bs4.BeautifulSoup模块的理解。 爬取流程 前奏: 分析糗事百科热图板块的网址,因为要进行翻页爬取内容,所以分析不

今天在使用正则表达式时未能解决实际问题,于是使用bs4库完成匹配,通过反复测试,最终解决了实际的问题,加深了对bs4.BeautifulSoup模块的理解。

爬取流程

前奏:

分析糗事百科热图板块的网址,因为要进行翻页爬取内容,所以分析不同页码的网址信息是必要的

具体步骤:

1,获取网页内容(urllib.request)# 糗事百科有发爬虫技术,所以要添加headers,伪装程浏览器

2,解析网页内容,获取图片链接(from bs4 import BeautifulSoup)

3,通过图片链接下载图片(urllib.request),并存储到本地

备注:

具体的爬取说明在代码都有详细的解释

  1 import urllib.request
  2 import requests
  3 from bs4 import BeautifulSoup
  4 # import re
  5 import gevent
  6 from gevent import monkey
  7 import bs4
  8 
  9 monkey.patch_all()
 10 
 11 
 12 def get_html_text(url, raw_html_text, depth):
 13 
 14     # 爬取网页数据
 15 
 16     # 糗事百科有反爬虫机制,需要设置请求头伪装成浏览器
 17     hd = ('User-Agent','Mozilla/5.0(windows NT 10.0; WOW64) AppleWEBKit/537.36 (KHTML, like Gecko) Ch    rome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0')
 18 
 19     # 创建opener对象
 20     opener = urllib.request.build_opener()
 21     opener.addheaders = [hd]
 22 
 23     # 将opener对象设置为全局
 24     urllib.request.install_opener(opener)
 25 
 26     # 翻页爬取html_text
 27     for i in range(depth):
 28         # 根据对网址的分析,构造符合翻页时的网址
 29         url_real = url + str(i+1)
 30         try:
 31             html_data = urllib.request.urlopen(url_real).read().decode('utf-8', 'ignore')
 32             raw_html_text.append(html_data)
 33             # 测试代码
 34             # print(len(html_data))
 35         except Exception as result:
 36             print('错误类型:', result)
 37     
 38     print('提取网页信息完成...')
 39     return raw_html_text
 40     # 测试代码         
 41     # print(len(raw_html_text))
 42 
 43 
 44 def parser_html_text(raw_html_text, done_img):
 45 
 46     # 对爬取的网页数据进行遍历
 47 
 48     for html_text in raw_html_text:
 49         # 使用BeautifulSoup对网页进行解析
 50         soup = BeautifulSoup(html_text, 'html.parser')
 51         # 使用soup.find_all('div','thumb') 查找出每个网页中所有标签是div,属性值是thumb的标签
 52         # 通过对网页源代码的分析,图片信息都存储在该标签下的孙子标签img中的属性src中
 53         # 遍历每个div标签
 54         for tag in soup.find_all('div', 'thumb'):
 55             # 判断 tag 是否是bs4.element.Tag属性,因为在标签div下,并不是全部是标签
 56             if isinstance(tag, bs4.element.Tag):
 57                 # 遍历每个div标签下的所有孙子标签
 58                 for img in tag.descendants:
 59                     # 判断标签的名字是不是‘img’,如果是,取出标签中属性src的属性值。
 60                     if img.name == 'img':
 61                         link = img.get('src')
 62                         done_img.append(link)
 63     #测试代码
 64     #print(done_img)
 65     print('网页解析完成...')
 66     return done_img
 67 
 68 def save_crawler_data(done_img):
 69     # 将目标文本存储到本地‘./’表示当前目录
 70     path = './img/'
 71     # enumerate(list) 返回索引及索引对应的列表内的元素
 72     for i,j in enumerate(done_img):
 73         # 分析爬取的链接,前面缺少‘https:’,使用字符串拼接
 74         j ='Https:' + j
 75         # 通过urllib.request.urlopen()下载图片
 76         try:
 77             img_data = urllib.request.urlopen(j).read()
 78             path_real = path + str(i+1)
 79             with open(path_real, 'wb') as f:
 80                 f.write(img_data)
 81         except:
 82             continue
 83     print('图片存储完成')
 84 
 85 
 86 def main():
 87     url = 'https://www.qiushibaike.com/imgrank/page/'
 88     depth = 20
 89     raw_html_text = list()
 90     done_img = list()
 91     Raw_html_text = get_html_text(url, raw_html_text, depth)
 92     Done_img = parser_html_text(Raw_html_text, done_img)
 93     gevent.joinall([
 94         gevent.spawn(get_html_text,url,raw_html_text,depth),
 95         gevent.spawn(parser_html_text,Raw_html_text,done_img),
 96         gevent.spawn(save_crawler_data,Done_img)
 97         ])
 98 
 99     save_crawler_data(done_img)
100 
101 
102 if __name__ == '__main__':
103     main()

 

--结束END--

本文标题: 03_多协程爬取糗事百科热图

本文链接: https://lsjlt.com/news/181167.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 03_多协程爬取糗事百科热图
    今天在使用正则表达式时未能解决实际问题,于是使用bs4库完成匹配,通过反复测试,最终解决了实际的问题,加深了对bs4.BeautifulSoup模块的理解。 爬取流程 前奏: 分析糗事百科热图板块的网址,因为要进行翻页爬取内容,所以分析不...
    99+
    2023-01-30
    糗事 百科 热图
  • 使用Python爬取糗事百科热门文章
      默认情况下取糗事百科热门文章只有35页,每页20条,根据下面代码可以一次性输出所有的文章,也可以选择一次输出一条信息,回车继续。不支持图片内容的显示,显示内容包括作者,热度(觉得好笑的人越多,热度越高),内容。从热度最高开始显示到最低。...
    99+
    2023-01-31
    糗事 热门文章 百科
  • python3 爬虫之爬取糗事百科
    闲着没事爬个糗事百科的笑话看看python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误http.client.RemoteDisconnected: Remote end closed connect...
    99+
    2023-01-31
    爬虫 糗事 百科
  • Python 简单爬虫抓取糗事百科
        该爬虫主要实现的功能是抓取糗事百科里面的一些段子。    urllib2可以用urllib2.openurl中设置Request参数,来修改Header头。如果你访问一个网站,想更改User Agent(可以伪装你的浏览器),你就要...
    99+
    2023-01-31
    爬虫 糗事 百科
  • Python爬取糗事百科所有段子
    import requests from lxml import etree import time headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) A...
    99+
    2023-01-31
    糗事 段子 百科
  • 玩转python爬虫之爬取糗事百科段子
    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次...
    99+
    2022-06-04
    爬虫 糗事 段子
  • Python项目实战:爬取糗事百科最热门的内涵搞笑段子
    前言相信大家都很喜欢非常喜欢看那种神奇的段子,和下面神评论,哈哈,简直就是笑死人,不偿命,今天就为大家介绍一个爬取糗事百科最热门的内涵段子的案例,让你在敲代码过程,有点烦心的时候,就可以看看最新的搞笑内涵段子了,是不是超棒的呢导入基本库...
    99+
    2023-06-02
  • java多线程爬虫爬取百度图片的方法
    小编给大家分享一下java多线程爬虫爬取百度图片的方法,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Java的特点有哪些Java的特点有哪些1.Java语言作为静...
    99+
    2023-06-14
  • 05_多协程爬取斗鱼高颜值美女图片-2.
    1 import requests 2 import re 3 # from bs4 import BeautifulSoup 4 from urllib import request 5 # import threading...
    99+
    2023-01-30
    美女 图片 多协程爬取斗鱼高颜值
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作