扫码关注官方微信

扫码下载APP

返回顶部

首页 > 资讯 > 后端开发 > Python >python爬取免费代理并验证代理是否可用

504

0

分享到

python爬取免费代理并验证代理是否可用

2024-04-02 19:04:59 504人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

分享一个python脚本，使用代理ip来访问网页，方便抓取数据什么的~并自动验证ip是否可以用什么情况下会用到代理IP？比如你要抓取一个网站数据，该网站有100万条内容，他们做了I

分享一个python脚本，使用代理ip来访问网页，方便抓取数据什么的~并自动验证ip是否可以用

什么情况下会用到代理IP？比如你要抓取一个网站数据，该网站有100万条内容，他们做了IP限制，每个IP每小时只能抓1000条，如果单个IP去抓因为受限，需要40天左右才能采集完，如果用了代理IP，不停的切换IP，就可以突破每小时1000条的频率限制，从而提高效率。

脚本开始：

import requests
from lxml import etree
# 获取快代理首页的代理
def get_proxy_list():
    url = "https://www.jxmtjt.com/"
    payload = {}
    headers = {
        "User-Agent": "Mozilla/5.0 (windows NT 6.1; WOW64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
        'Accept': 'application/JSON, text/javascript, */*; q=0.01',
    }
    response = requests.request("GET", url, headers=headers, data=payload)
    res = []
    _ = etree.HTML(response.text)
    type_dct = {
        "Http": "http://",
        "HTTPS": "https://"
    }
    data_list = _.xpath("//tbody/tr")
    for data in data_list:
        ip = data.xpath("./td[1]/text()")[0]
        port = data.xpath("./td[2]/text()")[0]
        type = data.xpath("./td[4]/text()")[0]
        res.append(type_dct[type] + ip + ':' + port)
    return res
# 测试代理
def check(proxy):
    href = 'http://www.baidu.com/'
    if 'https' in proxy:
        proxies = {'https': proxy}
    else:
        proxies = {'http': proxy}
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4396.0 Safari/537.36'
    }
    try:
        r = requests.get(href, proxies=proxies, timeout=5, headers=headers)
        if r.status_code == 200:
            return True
    except:
        return False
if __name__ == '__main__':
    proxy_list = get_proxy_list()
    print(proxy_list)
    for p in proxy_list:
        print(p, check(p))
大家代码复制后，把获取代理ip的网址改一改就可以用了，代码我一直在用，大家也可以cnblogs，百度搜索一下有没有免费的代理ip获取网址~

到此这篇关于Python爬取免费代理并验证是否可用的文章就介绍到这了,更多相关python爬取免费代理内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: python爬取免费代理并验证代理是否可用

本文链接: https://lsjlt.com/news/161772.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

python爬取免费代理并验证代理是否可用

分享一个python脚本，使用代理ip来访问网页，方便抓取数据什么的~并自动验证ip是否可以用什么情况下会用到代理IP？比如你要抓取一个网站数据，该网站有100万条内容，他们做了I...

99+

2024-04-02
python如何爬取免费代理并验证代理是否可用

python如何爬取免费代理并验证代理是否可用，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。分享一个python脚本，使用代理ip来访问网页，方便抓取数据什么的~并自动验证...

99+

2023-06-26
python--IP代理池验证可用性

背景：无论是自己爬虫爬取的IP代理还是购买的IP代理服务都会存在IP不稳定的情况。通过不断的校验来判断IP是否可用。#!/usr/bin/env python2.7 #coding:utf8 import os,time,sys #impo...

99+

2023-01-31

可用性 python IP
python: 抓取免费代理ip

通过抓取西刺网免费代理ip实现代理爬虫： from bs4 import BeautifulSoup import requests import random import telnetlib requests = requests.se...

99+

2023-01-31

python ip
利用Python爬取可用的代理IP

前言就以最近发现的一个免费代理IP网站为例：http://www.xicidaili.com/nn/。在使用的时候发现很多IP都用不了。所以用Python写了个脚本，该脚本可以把能用的代理IP检测出来。...

99+

2022-06-04

Python IP
python2.7爬取可用代理IP

import urllib2import randomimport timeimport re#from lxml import etree #第三方模块def get_proxy(page):headers = {'User-Agent...

99+

2023-01-31

IP
免费的ip代理是否稳定

这期内容当中小编将会给大家带来有关免费的ip代理是否稳定，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。是否有稳定的免费IP代理？任何东西都有其价值，或贵或便宜。尽管价格不同，但一分钱一分货还是有道理的。常...

99+

2023-06-25
IP代理池之验证是否有效

IP代理池之验证是否有效把proxy pool项目跑起来，但也不知道这些ip怎么用，爬虫的时候是否用代理去爬取，下面通过一个例子来看看。代码如下： import requests PROXY_POOL_URL = 'http://1...

99+

2023-01-31

IP
免费代理ip可以用吗

本篇内容介绍了“免费代理ip可以用吗”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！现在市面上的免费代理IP软件基本上无法使用，现在的厂商都不...

99+

2023-06-20
如何用免费代理IP爬数据

如何用免费代理IP爬数据，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。一.前言玩爬虫的都避免不了各大网站的反爬措施限制，比较常见的是通过固定时间检测某ip地址访问量来判断该用户...

99+

2023-06-16
Python爬虫中免费代理IP和付费代理IP的区别有哪些

这篇文章给大家分享的是有关Python爬虫中免费代理IP和付费代理IP的区别有哪些的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。1、免费代理IP和付费代理IP的区别免费代理IP是免费的，没有人维护，资源本身质量不...

99+

2023-06-15
python selenium chrome使用验证代理

python selenium chrome使用验证代理#!/usr/bin/env python # coding: utf-8 import zipfile import string ...

99+

2023-01-30

python selenium chrome
Python 快速验证代理IP是否有效的方法实现

有时候，我们需要用到代理IP，比如在爬虫的时候，但是得到了IP之后，可能不知道怎么验证这些IP是不是有效的，这时候我们可以使用Python携带该IP来模拟访问某一个网站，如果多次未成功访问，则说明这个代理是无效的。 ...

99+

2022-06-02

Python 验证代理IP python代理IP是否有效
Python实现采集网站ip代理并检测是否可用

目录开发环境模块使用代理ip结构代码实现步骤1. 导入模块2. 发送请求3. 获取数据4. 解析数据5. 检测ip质量开发环境 Python 3.8 Pycharm 模块使用 req...

99+

2024-04-02
批量获取及验证HTTP代理的Python脚本

HTTP暴力破解、撞库，有一些惯用的技巧，比如： 1. 在扫号人人网时，我遇到单个账号错误两次，强制要求输入验证码，而对方并未实施IP策略。我采用维护10万（用户名，密码）队列的方式来绕过验证码。具体的...

99+

2022-06-04

批量脚本 HTTP
如何用Python爬虫抓取代理IP

本篇文章为大家展示了如何用Python爬虫抓取代理IP，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。不知道大家在访问网站的时候有没有遇到过这样的状况就是被访问的网站会给出一个提示，提示的显示是“访问...

99+

2023-06-02
爬虫使用免费http代理需要注意什么

本篇内容介绍了“爬虫使用免费http代理需要注意什么”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！很多地方都能用网络交换ip，很多时候ip出...

99+

2023-06-20
如何检测http代理ip是否可用

这篇文章主要介绍如何检测http代理ip是否可用，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！1、测试数量为了测试，样品不能太小。如果只有十几次测试，就不能轻易得出结论。像太阳IP就提供5000IP供测试，足够用户了...

99+

2023-06-20
如何在python中使用proxybroker构建一个爬虫免费IP代理池

今天就跟大家聊聊有关如何在python中使用proxybroker构建一个爬虫免费IP代理池，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。python可以做什么Python是一种编程...

99+

2023-06-06
免费代理ip的使用限制是什么

本篇内容主要讲解“免费代理ip的使用限制是什么”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“免费代理ip的使用限制是什么”吧!随着我们工作的需要，越来越多的人开始使用IP软件。如今市场上也有很多...

99+

2023-06-20

软考高级职称资格查询

热门wiki

mysql删除数据恢复

mysql删表能回滚吗

mysql找回删除的表

mysql不小心删除了表

mysql不小心把表删了怎么恢复数据

mysql数据表删除后能恢复么

mysql误删表数据恢复

mysql误删表恢复

mysql删除表怎么恢复

近期文章

python写一段编程，祝福高三考生旗开得胜

PythonOOP 的力量：封装与抽象类的超级英雄联盟

Python 代码的建筑师：封装与抽象类的蓝图和构建工具

PythonOOP 的航海图：封装与抽象类的船帆和指南针

Python 封装与抽象类的实验室：试验和发现的乐趣

Python 代码的可读性之钥：封装与抽象类的解读指南

PythonOOP 的秘密花园：封装与抽象类的花卉盛宴

Python 代码的组织大师：封装与抽象类的秩序之道

Python 封装与抽象类的终极秘籍：通往对象导向编程之路

PythonOOP 的宝藏：封装与抽象类的寻宝之旅

推荐阅读

python分析数据的方法是什么

2024-03-01

如何使用Python实现抽奖小程序

2024-03-01

python copy函数的作用是什么

2024-03-01

python ffmpeg模块怎么安装和使用

2024-02-29

python进程池创建队列的方法是什么

2024-02-29

python无法运行文件的原因有哪些

2024-02-29

python can't open file报错怎么解决

2024-02-29

python keyerror错误怎么解决

2024-02-29

python字符串处理与应用的方法有哪些

2024-02-29

python全局变量如何定义

2024-02-29

热门问答

1

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

1

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

1

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

1

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

1

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

1

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

1

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

1

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

1

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

1

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

编程网，编程工程师的家园，是目前国内优秀的开源技术社区之一，形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容，为IT开发者提供了一个发现、使用、并交流开源技术的平台。

官方手机版
微信公众号
商务合作

Powered by 编程网 | Copyright © 2018-2023, 版权所有. | 网站地图 | 苏ICP备17033115号