返回顶部
首页 > 资讯 > 精选 >突破反爬虫策略
  • 178
分享到

突破反爬虫策略

2023-06-02 05:06:15 178人浏览 安东尼
摘要

1.什么是爬虫和反爬虫爬虫是使用任何技术手段批量获取网站信息的一种方式,反爬虫是使用任何技术手段阻止别人批量获取自己网站信息的一种方式;2.User-Agent介绍User Agent中文名为用户代理,是Http协议中的一部分,属于头域的组

1.什么是爬虫和反爬虫

  • 爬虫是使用任何技术手段批量获取网站信息的一种方式,反爬虫是使用任何技术手段阻止别人批量获取自己网站信息的一种方式;

2.User-Agent介绍

  • User Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识;

  • User-Agentheaders中的一个属性,表示当前访问服务器的身份信息,如果同一个身份过于频繁的访问服务器会被识别为机器身份,遭到反爬的打击,所以需要频繁的更改User-Agent信息;

  • User-Agent字段解析:浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息;

3.使用不同的User-Agent来规避反爬策略

  • 想要随机更改User-Agent,首先我们可以在蜘蛛文件的Spider类中添加一个header请求头,很多网站只需要userAgent信息就可以通过,但是有的网站还需要验证一些其他的信息,所以我们可以在请求头中添加一些需要用到的字段,比如:

  • Accept:客户端支持的数据类型,用逗号隔开,是有顺序的,分号前面是主类型,分号后是子类型;

  • Accept-Encoding:指定浏览器可以支持的WEB服务器返回内容压缩编码类型;

  • Accept-Language:浏览器可接受的自然语言的类型;

  • Connection:设置HTTP连接的持久化,通常都是Keep-Alive;

  • host:服务器的域名或IP地址,如果不是通用端口,还包含该端口号;

  • Referer:指当前请求的URL是在什么地址引用的;

headers = {        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,**;q=0.8',            'Accept-Encoding': 'gzip, deflate',            'Accept-Language': 'zh-CN,zh;q=0.9',            'Connection': 'keep-alive',            'host': 'dribbble.com',            'Referer': 'https://dribbble.com/',        }        random_index = get_randam_int(user_agent_list)        random_agent = user_agent_list[random_index]        headers['User-Agent'] = random_agent        a_nodes = response.CSS('header div.teaser a')        for a_node in a_nodes:            # print(a_node)            a_url = a_node.css('::attr(href)').extract()[0]            a_image_url = a_node.css('img::attr(src)').extract()[0]            yield Request(headers=headers,url=parse.urljoin(response.url, a_url), callback=self.parse_analyse, meta={'a_image_url': a_image_url})

4.也可以在中间件中设置User Agent

突破反爬虫策略

5.调试工具

  • 打开你需要爬虫的网页;

  • 按键盘的F12或手动去浏览器右上角的“更多工具”选项选择开发者工具;

  • 按键盘的F5刷新网页;

  • 选择Network中的Doc;

  • 点击Headers,就可以在最末尾查看Request Headers的User-Agent字段,也可以复制使用User-Agent字段;

参考:https://www.9xkd.com/user/plan-view.html?id=1782598054

--结束END--

本文标题: 突破反爬虫策略

本文链接: https://lsjlt.com/news/228960.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 突破反爬虫策略
    1.什么是爬虫和反爬虫爬虫是使用任何技术手段批量获取网站信息的一种方式,反爬虫是使用任何技术手段阻止别人批量获取自己网站信息的一种方式;2.User-Agent介绍User Agent中文名为用户代理,是Http协议中的一部分,属于头域的组...
    99+
    2023-06-02
  • Python爬虫怎么突破反爬虫机制
    这篇文章主要介绍“Python爬虫怎么突破反爬虫机制”,在日常操作中,相信很多人在Python爬虫怎么突破反爬虫机制问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫怎么突破反爬虫机制”的疑惑有所...
    99+
    2023-06-25
  • Python爬虫反反爬的策略有哪些
    本篇内容主要讲解“Python爬虫反反爬的策略有哪些”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python爬虫反反爬的策略有哪些”吧!爬虫采集成为很多公司企业个人的需求,但正因为如此,反爬虫...
    99+
    2023-06-01
  • Python爬虫突破反爬虫机制知识点总结
    1、构建合理的HTTP请求标头。 HTTP的请求头是一组属性和配置信息,当您发送一个请求到网络服务器时。因为浏览器和Python爬虫发送的请求头不同,反爬行器很可能会被检测到。 2、...
    99+
    2024-04-02
  • Python爬虫突破反爬虫机制知识点有哪些
    这篇文章主要介绍“Python爬虫突破反爬虫机制知识点有哪些”,在日常操作中,相信很多人在Python爬虫突破反爬虫机制知识点有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫突破反爬虫机制...
    99+
    2023-06-25
  • 爬虫中常见的反爬虫策略有哪些
    小编给大家分享一下爬虫中常见的反爬虫策略有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1.IP封锁站点运行人员在分析日志时,有时会发现在同一时间段内有一个或...
    99+
    2023-06-20
  • python解决网站的反爬虫策略总结
    本文详细介绍了网站的反爬虫策略,在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。 一般网站从三个方面反爬...
    99+
    2022-06-04
    爬虫 策略 网站
  • 换IP软件的反爬虫策略有哪些
    本篇内容主要讲解“换IP软件的反爬虫策略有哪些”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“换IP软件的反爬虫策略有哪些”吧!1、反爬虫的用户行为。大部分站点都是前者,对此情况,使用IP代理即可...
    99+
    2023-06-25
  • Python如何破解反爬虫
    本篇文章给大家分享的是有关Python如何破解反爬虫,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。通过用JS在本地生成随机字符串的反爬虫机制,在利用Python写爬虫的时候经常...
    99+
    2023-06-17
  • 网络爬虫中反扒策略的示例分析
    小编给大家分享一下网络爬虫中反扒策略的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!设置好header信息,不仅仅是UserAgent、Referer这两...
    99+
    2023-06-15
  • 怎么突破CSS ::before 伪元素混淆反采集策略
    本篇内容主要讲解“怎么突破CSS ::before 伪元素混淆反采集策略”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么突破CSS ::before 伪元素混淆反采集策略”吧!分析参数列表,发...
    99+
    2023-06-02
  • 爬虫时突破限制的方法有哪些
    本篇内容介绍了“爬虫时突破限制的方法有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!1、减少返回的信息。最基本的隐藏真实数据量,只有不断...
    99+
    2023-06-20
  • 阿里云反爬虫服务器全面解析与应对策略
    阿里云反爬虫服务器,是阿里云为了保护其网站和应用程序免受恶意爬虫的攻击而设置的一套完整的反爬虫解决方案。该解决方案包括了前端反爬虫策略、后端反爬虫策略以及整体反爬虫策略,可以有效地防止恶意爬虫对网站和应用程序进行破坏和攻击。 一、前端反爬虫...
    99+
    2023-11-07
    爬虫 阿里 应对策略
  • python中不同类型爬虫的爬行策略有哪些
    小编给大家分享一下python中不同类型爬虫的爬行策略有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1、增量式网络爬虫。增量更新是指在更新时只更新变化的地方...
    99+
    2023-06-15
  • 【Python3爬虫】常见反爬虫措施及解
    这一篇博客,是关于反反爬虫的,我会分享一些我遇到的反爬虫的措施,并且会分享我自己的解决办法。如果能对你有什么帮助的话,麻烦点一下推荐啦。   UserAgent中文名为用户代理,它使得服务器能够识别客户使用的操作系统及版本、CPU 类...
    99+
    2023-01-30
    爬虫 措施 常见
  • Python:常见反爬策略及应对方案汇总
    2019常见反爬策略及应对方案大汇总了。如果你对反爬虫的策略和手段还掌握的不很全面,进来学就对了!一切都是刚刚好,一切都不晚!...
    99+
    2023-06-02
  • python爬虫反爬怎么处理
    针对 python 爬虫的反爬措施,开发者可以通过以下方式处理:获取代理 ip:使用代理池或手动收集代理 ip 以隐藏真实 ip。模拟浏览器行为:发送真实的用户代理、设置合适的请求头并模...
    99+
    2024-05-22
    python
  • 反爬虫——使用chrome headle
    以前我们介绍过chrome headless的用法(https://www.cnblogs.com/apocelipes/p/9264673.html)。 今天我们要稍微提一下其中一个细节。   反爬和window.navigator对象...
    99+
    2023-01-30
    爬虫 chrome headle
  • Python爬虫实例:爬取猫眼电影——破
     字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的。 现在貌似不少网站都有采用这种反爬机制,我们通过猫眼...
    99+
    2023-01-30
    爬虫 猫眼 实例
  • Python音乐爬虫完美绕过反爬
    目录前言开始分析(x0)分析(x1)分析(x2)分析(x3)分析(x4)通过分析获取到音乐JavaScript绕过之参数冗余CSRF攻击与防御总结代码前言 大家好,我叫善念。 这是我...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作