首页 > 资讯 > 精选 >怎么用代码搞定Scrapy随机 User-Agent

527

分享到

怎么用代码搞定Scrapy随机 User-Agent

2023-06-04 08:06:07 527人浏览八月长安

摘要

今天就跟大家聊聊有关怎么用代码搞定scrapy随机 User-Agent，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。摘要：爬虫过程中的反爬措施非常重要，其中设置随机 User-Ag

今天就跟大家聊聊有关怎么用代码搞定scrapy随机 User-Agent，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

摘要：爬虫过程中的反爬措施非常重要，其中设置随机 User-Agent 是一项重要的反爬措施，Scrapy 中设置随机 UA 的方式有很多种，有的复杂有的简单，本文就对这些方法进行汇总，提供一种只需要一行代码的设置方式。

最近使用 Scrapy 爬一个网站，遇到了网站反爬的情况，于是开始搜索一些反爬措施，了解到设置随机 UA 来伪装请求头是一种常用的方式，这能够做到一定程度上避免网站直接识别出你是一个爬虫从而封掉你。设置随机 UA 的方法有挺多种，有的需要好多行代码，有的却只需要一行代码就搞定了，接下来就来介绍下。

▌常规设置 UA

首先，说一下常规情况不使用 Scrapy 时的用法，比较方便的方法是利用 fake_useragent包，这个包内置大量的 UA 可以随机替换，这比自己去搜集罗列要方便很多，下面来看一下如何操作。

首先，安装好fake_useragent包，一行代码搞定：

1pip install fake-useragent

然后，就可以测试了：

1from fake_useragent import UserAgent
2ua = UserAgent()
3for i in range(10):
4    print(ua.random)

这里，使用了 ua.random 方法，可以随机生成各种浏览器的 UA，见下图：

（放大查看）

如果只想要某一个浏览器的，比如 Chrome ，那可以改成 ua.chrome，再次生成随机 UA 查看一下：

以上就是常规设置随机 UA 的一种方法，非常方便。

下面，我们来介绍在 Scrapy 中设置随机 UA 的几种方法。

先新建一个 Project，命名为 wanojia，测试的网站选择为：Http://httpbin.org/get。

首先，我们来看一下，如果不添加 UA 会得到什么结果，可以看到显示了scrapy，这样就暴露了我们的爬虫，很容易被封。

下面，我们添加上 UA 。

▌直接设置 UA

第一种方法是和上面程序一样，直接在主程序中设置 UA，然后运行程序，通过下面这句命令可以输出该网站的 UA，见上图箭头处所示，每次请求都会随机生成 UA，这种方法比较简单，但是每个 requests 下的请求都需要设置，不是很方便，既然使用了 Scrapy，它提供了专门设置 UA 的地方，所以接下来我们看一下如何单独设置 UA。

1response.request.headers['User-Agent']

▌手动添加 UA

第二种方法，是在 settings.py 文件中手动添加一些 UA，然后通过 random.choise 方法随机调用，即可生成 UA，这种方便比较麻烦的就是需要自己去找 UA，而且增加了代码行数量。

▌middlewares.py 中设置 UA

第三种方法，是使用 fake-useragent 包，在 middlewares.py 中间件中改写 process_request() 方法，添加以下几行代码即可。

1from fake_useragent import UserAgent
2class RandomUserAgent(object):
3    def process_request(self, request, spider):
4        ua = UserAgent()
5        request.headers['User-Agent'] = ua.random

然后，我们回到 settings.py 文件中调用自定义的 UserAgent，注意这里要先关闭默认的 UA 设置方法才行。

1DOWNLOADER_MIDDLEWARES = {
2    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, 
3    'wandoujia.middlewares.RandomUserAgent': 543,
4}

可以看到，我们成功得到了随机 UA。

▌一行代码设置 UA

可以看到，上面几种方法其实都不太方便，代码量也比较多，有没有更简单的设置方法呢？

有的，只需要一行代码就搞定，利用一款名为 scrapy-fake-useragent 的包。

先贴一下该包的官方网址：https://pypi.org/project/scrapy-fake-useragent/，使用方法非常简单，安装好然后使用就行了。

执行下面的命令进行安装，然后在 settings.py 中启用随机 UA 设置命令就可以了，非常简单省事。

1pip install scrapy-fake-useragent

1DOWNLOADER_MIDDLEWARES = {
2    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, # 关闭默认方法
3    'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware': 400, # 开启
4}

我们输出一下 UA 和网页 Response，可以看到成功输出了结果。

以上就是 Scrapy 中设置随机 UA 的几种方法，推荐最后一种方法，即安装 scrapy-fake-useragent 库，然后在 settings 中添加下面这一行代码即可：

1'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware': 400,

另外，反爬措施除了设置随机 UA 以外，还有一种非常重要的措施是设置随机 IP。

看完上述内容，你们对怎么用代码搞定Scrapy随机 User-Agent有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注编程网精选频道，感谢大家的支持。

--结束END--

本文标题: 怎么用代码搞定Scrapy随机 User-Agent

本文链接: https://lsjlt.com/news/237090.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

怎么用代码搞定Scrapy随机 User-Agent

▌常规设置 UA

▌直接设置 UA

▌手动添加 UA

▌middlewares.py 中设置 UA

▌一行代码设置 UA

怎么用代码搞定Scrapy随机 User-Agent

使用shell怎么随机定时修改密码

JavaScript随机数生成代码怎么写

JavaScript生成随机数的代码怎么写

怎么编写代码搞定Python中任何线性方程

怎么使用vue3生成随机密码

Android怎么自定义View实现随机数验证码

PHP中怎么利用给定的字符串生成随机密码

怎么使用java搞定网站登录验证码

使用Java怎么生成一个随机验证码

怎么用Python实现随机生成图片验证码

Shell中怎么创建用户并生成随机密码

Android应用中怎么对随机验证码进行获取

怎么在Android中通过自定义View绘制一个四位数随机码

怎么用vbs产生的若干个随机数并写入到一个.txt中的代码

怎么使用JS编写随机抽取号码的小程序

怎么调试Cordova应用的JavaScript代码和自定义插件代码

怎么调用chatGPT实现代码机器人

python 定时器具体的使用代码怎么写

Android代码检查规则Lint怎么自定义与应用

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南