返回顶部
首页 > 资讯 > 后端开发 > Python >python爬虫之代理ip正确使用方法实例
  • 552
分享到

python爬虫之代理ip正确使用方法实例

2024-04-02 19:04:59 552人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录代理ip原理输入网址后发生了什么呢?代理ip做了什么呢? 为什么要用代理呢?爬虫代码中使用代理ip检验代理ip是否生效 未生效问题排查1.请求协议不匹配2.代

主要内容:代理ip使用原理,怎么在自己的爬虫里设置代理ip,怎么知道代理ip是否生效,没生效的话哪里出了问题,个人使用的代理ip(付费)。

代理ip原理

输入网址后发生了什么呢?

1.浏览器获取域名

2.通过DNS协议获取域名对应服务器的ip地址

3.浏览器和对应的服务器通过三次握手建立tcp连接

4.浏览器通过Http协议向服务器发送数据请求

5.服务器将查询结果返回给浏览器

6.四次挥手释放TCP连接

7.浏览器渲染结果

其中涉及到了:

应用层:HTTP和DNS

传输层:TCP UDP

网络层:IP ICMP ARP

代理ip做了什么呢?

简单来说,就是:

原本你的访问

使用代理后你的访问

 为什么要用代理呢?

因为我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP。而代理ip就避免了这个问题:

爬虫代码中使用代理ip

就像是请求时伪装头一样,伪装ip,注意是 { }

proxies = {
           'https':'117.29.228.43:64257',
           'http':'117.29.228.43:64257'
       }
 
requests.get(url, headers=head, proxies=proxies, timeout=3) #proxies

检验代理ip是否生效

我们访问一个网站,这个网站会返回我们的ip地址:

print(requests.get('http://httpbin.org/ip', proxies=proxies, timeout=3).text)

我们看一下我使用了四个不同的代理ip,全部生效了,

 未生效问题排查

如果你返回的还是本机地址,99%试一下两种情况之一:

1.请求协议不匹配

简单来说就是,如果你请求的是http,就要用http的协议,如果是https,就要用https的协议。

如果我请求是http ,但只有https,就会使用本机ip。

2.代理失效

便宜没好货,好货不便宜。如果确实大规模爬虫是必须的话,还是买代理ip比较好,网上广告满天飞的某些代理实际性价比有些低了,自己常用的就不分享了,总是被当成广告,推荐一些其他的比如:

1、IPidea

2、StORMproxies

3、YourPrivateProxy

4、GeoSurf

当然还有大家熟知的快代理,西刺等等,都有一些免费代理可供使用。

总结

到此这篇关于python爬虫之代理ip正确使用方法的文章就介绍到这了,更多相关python爬虫代理ip内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: python爬虫之代理ip正确使用方法实例

本文链接: https://lsjlt.com/news/119226.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python爬虫之代理ip正确使用方法实例
    目录代理ip原理输入网址后发生了什么呢?代理ip做了什么呢? 为什么要用代理呢?爬虫代码中使用代理ip检验代理ip是否生效 未生效问题排查1.请求协议不匹配2.代...
    99+
    2024-04-02
  • Python 爬虫使用代理 IP 的正确方法
    代理 IP 是爬虫中非常常用的方法,可以避免因为频繁请求而被封禁。下面是 Python 爬虫使用代理 IP 的正确方法: 选择可靠的代理 IP 供应商,购买或者免费使用代理 IP 列表。 2. 在爬虫中使用第三方库 requests ,并...
    99+
    2023-09-01
    python 开发语言
  • python爬虫之代理ip怎么正确使用
    在Python中使用代理IP进行爬虫需要使用第三方库,比如requests库。以下是使用代理IP的正确步骤:1. 导入request...
    99+
    2023-08-17
    python
  • python学习-Selenium爬虫之使用代理ip的方法
     今天给大家分享的是如何在爬取数据的时候防止IP被封,今天给大家分享两种方法,希望大家可以认真学习,再也不用担心被封IP啦。第一种:降低访问速度,我们可以使用time模块中的sleep,使程序每运行一次后就睡眠1s,这样的话就可以...
    99+
    2023-06-02
  • Python爬虫代理IP池实现方法
    在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来。不过...
    99+
    2022-06-04
    爬虫 方法 Python
  • python 爬虫如何使用代理IP
    作为一名数据采集者,我们都是知道,一个网站要是频繁访问都会被封IP,那要怎么解决这个问题呢?不可能一直频繁的更换设备,不光数据不能同步,这些设备的成本也是无法预计的,所以这个时候就需要代理IP了。以亿牛云(https://www.16yun...
    99+
    2023-06-02
  • python爬虫http代理使用方法
    目前,许多网站都设置了相应的防爬虫机制。这是因为有些人在实际的防爬虫主权过程中恶意收集或恶意攻击。一般来说,爬虫类开发者为了能够正常收集数据,速度相对较慢,或者一部分爬虫类开发者在网...
    99+
    2024-04-02
  • python爬虫之requests库使用代理方式
    目录安装上requests库GET方法谷歌浏览器的开发者工具POST方法使用代理在看这篇文章之前,需要大家掌握的知识技能: python基础html基础http状态码 让我们看看这篇...
    99+
    2024-04-02
  • python爬虫ip代理池的搭建方法
    这篇文章主要讲解了“python爬虫ip代理池的搭建方法”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“python爬虫ip代理池的搭建方法”吧!1、选择合适的代理软件并进行ip过滤。总共有2...
    99+
    2023-06-20
  • 使用python爬虫代理时ip被封的解决方法
    小编给大家分享一下使用python爬虫代理时ip被封的解决方法,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!python有哪些常用库python常用的库:1.requesuts;2.scrapy;3.pillow;4.tw...
    99+
    2023-06-14
  • Python 爬虫IP代理池的实现
    Python 爬虫IP代理池的实现 很多时候,如果要多线程的爬取网页,或者是单纯的反爬,我们需要通过代理 IP来进行访问。下面看看一个基本的实现方法。 代理 IP ...
    99+
    2024-04-02
  • 如何使用爬虫代理IP
    这篇文章给大家介绍如何使用爬虫代理IP,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。进入网站-品易云http代理-点击api提取。选择自己需求内容,点击【提取代理IP】然后根据需要选择提取数量、代理协议、格式等,然后点...
    99+
    2023-06-14
  • 怎么使用爬虫代理IP
    本篇内容介绍了“怎么使用爬虫代理IP”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!在网络数据时代,许多信息需要整理和使用。然而,面对如此大量...
    99+
    2023-06-20
  • 网络爬虫结合ip代理的使用方法
    这篇文章主要讲解了“网络爬虫结合ip代理的使用方法”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“网络爬虫结合ip代理的使用方法”吧!说到网络爬虫,大家都会很熟悉,因为网络爬虫实际上一直在我们...
    99+
    2023-06-20
  • Python爬虫基础之初次使用scrapy爬虫实例
    项目需求 在专门供爬虫初学者训练爬虫技术的网站(http://quotes.toscrape.com)上爬取名言警句。 创建项目 在开始爬取之前,必须创建一个新的Scrapy项目。进入您打算存储代码的目录中,运行下列...
    99+
    2022-06-02
    Python scrapy框架 Python爬虫
  • Python 网页爬虫原理及代理 IP 使用
    目录 前言 一、Python 网页爬虫原理 二、Python 网页爬虫案例 步骤1:分析网页 步骤2:提取数据 步骤3:存储数据 三、使用代理 IP 四、总结 前言 随着互联网的发展,网络上的信息量变得越来越庞大。对于数据分析人员和研究...
    99+
    2023-09-14
    python 爬虫 tcp/ip
  • 使用代理ip遇到反爬虫的解决方法
    这篇文章主要介绍使用代理ip遇到反爬虫的解决方法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!分布式爬虫。我们爬虫的时候可以采用分布式的方法,有一定几率起到反爬虫的作用,也可以增加抓取量。保存cookies。当模拟登...
    99+
    2023-06-14
  • Python爬虫实现搭建代理ip池
    目录前言一、User-Agent二、发送请求三、解析数据四、构建ip代理池,检测ip是否可用五、完整代码总结前言 在使用爬虫的时候,很多网站都有一定的反爬措施,甚至在爬取大量的数据或...
    99+
    2024-04-02
  • 爬虫怎么使用ip代理池
    这篇文章主要讲解了“爬虫怎么使用ip代理池”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“爬虫怎么使用ip代理池”吧!1、利用IP代理池技术,每次从IP代理池中随机选择一个IP代理来爬取数据。...
    99+
    2023-06-20
  • Python爬虫中使用代理IP有什么作用
    本篇内容主要讲解“Python爬虫中使用代理IP有什么作用”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python爬虫中使用代理IP有什么作用”吧!web爬虫程序会大规模爬网数据,所以为了避免...
    99+
    2023-06-20
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作