Python爬虫入门教程 8-100 蜂

爬虫入门教程 Python 2023-01-30 23:01:20 138人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

蜂鸟网图片--啰嗦两句前几天的教程内容量都比较大，今天写一个相对简单的，爬取的还是蜂鸟，依旧采用aioHttp 希望你喜欢爬取页面https://tu.fengniao.com/15/ 本篇教程还是基于学习的目的，为啥选择蜂鸟，没办法

蜂鸟网图片--啰嗦两句

前几天的教程内容量都比较大，今天写一个相对简单的，爬取的还是蜂鸟，依旧采用aioHttp 希望你喜欢
爬取页面https://tu.fengniao.com/15/ 本篇教程还是基于学习的目的，为啥选择蜂鸟，没办法，我瞎选的。

一顿熟悉的操作之后，我找到了下面的链接
https://tu.fengniao.com/ajax/ajaxTuPicList.PHP?page=2&tagsId=15&action=getPicLists

这个链接返回的是JSON格式的数据

page =2页码，那么从1开始进行循环就好了
tags=15 标签名称，15是儿童，13是美女，6391是私房照，只能帮助你到这了，毕竟我这是专业博客 ヾ(◍°∇°◍)ﾉﾞ
action=getPicLists接口地址，不变的地方

数据有了，开爬吧

import aiohttp
import asyncio

headers = {"User-Agent": "Mozilla/5.0 (windows NT 10.0; WOW64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
           "X-Requested-With": "XMLHttpRequest",
           "Accept": "*/*"}

async def get_source(url):
    print("正在操作:{}".fORMat(url))
    conn = aiohttp.tcpConnector(verify_ssl=False)  # 防止ssl报错,其中一种写法
    async with aiohttp.ClientSession(connector=conn) as session:  # 创建session
        async with session.get(url, headers=headers, timeout=10) as response:  # 获得网络请求
            if response.status == 200:  # 判断返回的请求码
                source = await response.text()  # 使用await关键字获取返回结果
                print(source)
            else:
                print("网页访问失败")


if __name__=="__main__":
        url_format = "https://tu.fengniao.com/ajax/ajaxTuPicList.php?page={}&tagsId=15&action=getPicLists"
        full_urllist= [url_format.format(i) for i in range(1,21)]
        event_loop = asyncio.get_event_loop()   #创建事件循环
        tasks = [get_source(url) for url in full_urllist]
        results = event_loop.run_until_complete(asyncio.wait(tasks))   #等待任务结束

在这里插入图片描述
上述代码在执行过程中发现，顺发了20个请求，这样子很容易就被人家判定为爬虫，可能会被封IP或者账号，我们需要对并发量进行一下控制。
使Semaphore控制同时的并发量

import aiohttp
import asyncio
# 代码在上面
sema = asyncio.Semaphore(3)
async def get_source(url):
    # 代码在上面
    #######################
# 为避免爬虫一次性请求次数太多，控制一下
async def x_get_source(url):
    with(await sema):
        await get_source(url)

if __name__=="__main__":
        url_format = "https://tu.fengniao.com/ajax/ajaxTuPicList.php?page={}&tagsId=15&action=getPicLists"
        full_urllist= [url_format.format(i) for i in range(1,21)]
        event_loop = asyncio.get_event_loop()   #创建事件循环
        tasks = [x_get_source(url) for url in full_urllist]
        results = event_loop.run_until_complete(asyncio.wait(tasks))   #等待任务结束

走一波代码，出现下面的结果，就可以啦！
在这里插入图片描述

在补充上图片下载的代码

import aiohttp
import asyncio

import json

## 蜂鸟网图片--代码去上面找
async def get_source(url):
    print("正在操作:{}".format(url))
    conn = aiohttp.TCPConnector(verify_ssl=False)  # 防止ssl报错,其中一种写法
    async with aiohttp.ClientSession(connector=conn) as session:  # 创建session
        async with session.get(url, headers=headers, timeout=10) as response:  # 获得网络请求
            if response.status == 200:  # 判断返回的请求码
                source = await response.text()  # 使用await关键字获取返回结果
                ############################################################
                data = json.loads(source)
                photos = data["photos"]["photo"]
                for p in photos:
                    img = p["src"].split('?')[0]
                    try:
                        async with session.get(img, headers=headers) as img_res:
                            imGCode = await img_res.read()
                            with open("photos/{}".format(img.split('/')[-1]), 'wb') as f:
                                f.write(imgcode)
                                f.close()
                    except Exception as e:
                        print(e)
                ############################################################
            else:
                print("网页访问失败")


# 为避免爬虫一次性请求次数太多，控制一下
async def x_get_source(url):
    with(await sema):
        await get_source(url)


if __name__=="__main__":
        #### 代码去上面找

图片下载成功，一个小爬虫，我们又写完了，美滋滋

GitHub代码地址

您可能感兴趣的文档:

--结束END--

本文标题: Python爬虫入门教程 8-100 蜂

本文链接: https://lsjlt.com/news/180547.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python爬虫入门教程 8-100 蜂

蜂鸟网图片--啰嗦两句前几天的教程内容量都比较大，今天写一个相对简单的，爬取的还是蜂鸟，依旧采用aiohttp 希望你喜欢爬取页面https://tu.fengniao.com/15/ 本篇教程还是基于学习的目的，为啥选择蜂鸟，没办法...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 6-100 蜂

1. 蜂鸟网图片--简介国庆假日结束了，新的工作又开始了，今天我们继续爬取一个网站，这个网站为 http://image.fengniao.com/ ，蜂鸟一个摄影大牛聚集的地方，本教程请用来学习，不要用于商业目的，不出意外，蜂鸟是有版...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 7-100 蜂

蜂鸟网图片--简介今天玩点新鲜的，使用一个新库 aiohttp ，利用它提高咱爬虫的爬取速度。安装模块常规套路 pip install aiohttp 运行之后等待，安装完毕，想要深造，那么官方文档必备：https://aioht...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 57-100

滑动验证码介绍本篇博客涉及到的验证码为滑动验证码，不同于极验证，本验证码难度略低，需要的将滑块拖动到矩形区域右侧即可完成。这类验证码不常见了，官方介绍地址为：https://promotion.aliyun.com/ntms/act...

99+

2023-01-31

爬虫入门教程 Python
Python爬虫入门教程 48-100

1. 爬取前的分析 mitmdump是mitmproxy的命令行接口，比Fiddler、Charles等工具方便的地方是它可以对接Python脚本。有了它我们可以不用手动截获和分析HTTP请求和响应，只需写好请求和响应的处理逻辑即可。 ...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 49-100

爬前准备工作在开始安装Appium之前，你要先知道Appium是做什么的？Appium 是一个自动化测试开源工具，看到没，做测试用的，它有点类似Selenium，可以自动操作APP实现一系列的操作。标记重点，可以使用python对Ap...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 52-100

写在前面关于获取文章自动发送到邮箱，这类需求其实可以写好几个网站，弄完博客园，弄CSDN，弄掘金，弄其他的，网站多的是呢~哈哈先从博客园开始，基本需求，获取python板块下面的新文章，间隔60分钟发送一次，时间太短估摸着没有多少新博...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 53-100

爬取背景这套课程虽然叫爬虫入门类课程，但是里面涉及到的点是非常多，十分检验你的基础掌握的牢固程度，代码中的很多地方都是可以细细品味的。为什么要写这么一个小东东呢，因为我生活在大河北，那雾霾醇厚的很，去了趟三亚，那空气，啧啧，舒服的很，...

99+

2023-01-31

爬虫入门教程 Python
Python爬虫入门教程 54-100

爬虫背景爬虫最核心的问题就是解决重复操作，当一件事情可以重复的进行的时候，就可以用爬虫来解决这个问题，今天要实现的一个基本需求是完成“博客园“ 博客的自动评论，其实原理是非常简单的，提炼一下需求基本需求登录博客园<不实现，登...

99+

2023-01-31

爬虫入门教程 Python
Python爬虫入门教程 36-100

爬前叨叨 2018年就要结束了，还有4天，就要开始写2019年的教程了，没啥感动的，一年就这么过去了，今天要爬取一个网站叫做酷安，是一个应用商店，大家可以尝试从手机APP爬取，不过爬取APP的博客，我打算在50篇博客之后在写，所以现在就放...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 38-100

爬前叨叨今天要爬取一下正规大学名单，这些名单是教育部公布具有招生资格的高校名单，除了这些学校以外，其他招生的单位，其所招学生的学籍、发放的毕业证书国家均不予承认，也就是俗称的野鸡大学！网址是 https://daxue.eol.cn...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 25-100

1. 知乎文章图片写在前面今天开始尝试爬取一下知乎，看一下这个网站都有什么好玩的内容可以爬取到，可能断断续续会写几篇文章，今天首先爬取最简单的，单一文章的所有回答，爬取这个没有什么难度。找到我们要爬取的页面，我随便选了一个 https...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 26-100

1. 知乎文章图片爬取器之二博客背景昨天写了知乎文章图片爬取器的一部分代码，针对知乎问题的答案json进行了数据抓取，博客中出现了部分写死的内容，今天把那部分信息调整完毕，并且将图片下载完善到代码中去。首先，需要获取任意知乎的问题，只...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 44-100

1. 第二款抓包工具Charles安装与使用 Charles和Fiddler一样，也是一款抓包工具，比Fiddler界面更加清晰，支持多平台 1.1 官方网址 https://www.charlesproxy.com/ 1.2 下载地址...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 45-100

1. Charles抓取兔儿故事背景介绍之前已经安装了Charles，接下来我将用两篇博客简单写一下关于Charles的使用，今天抓取一下兔儿故事里面关于小猪佩奇的故事。爬虫编写起来核心的重点是分析到链接，只要把链接分析到，剩下的就好...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 47-100

1. 准备下载软件介绍一款爬虫辅助工具mitmproxy ，mitmproxy 就是用于MITM的proxy,MITM中间人攻击。说白了就是服务器和客户机中间通讯多增加了一层。跟Fiddler和Charles最大的不同就是，mitmpr...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 46-100

1. 手机收音机-爬前叨叨今天选了一下，咱盘哪个APP呢，原计划是弄荔枝APP，结果发现竟然没有抓到数据，很遗憾，只能找个没那么圆润的了。搜了一下，找到一个手机收音机下载量也是不错的。 2. 爬虫套路爬虫基本套路抓包获取链接 ...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 32-100

1. B站博人传评论数据爬取简介今天想了半天不知道抓啥，去B站看跳舞的小姐姐，忽然看到了评论，那就抓取一下B站的评论数据，视频动画那么多，也不知道抓取哪个，选了一个博人传跟火影相关的，抓取看看。网址： https://www.bilib...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 34-100

爬前叨叨已经编写了33篇爬虫文章了，如果你按着一个个的实现，你的爬虫技术已经入门，从今天开始慢慢的就要写一些有分析价值的数据了，今天我选了一个《掘金网》，我们去爬取一下他的全站用户数据。爬取思路获取全站用户，理论来说从1个用户作为切...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 29-100

1. 手机APP数据----写在前面继续练习pyspider的使用，最近搜索了一些这个框架的一些使用技巧，发现文档竟然挺难理解的，不过使用起来暂时没有障碍，估摸着，要在写个5篇左右关于这个框架的教程。今天教程中增加了图片的处理，你可以重...

99+

2023-01-30

爬虫入门教程 Python