返回顶部
首页 > 资讯 > 服务器 >爬虫遇到需要登录的网站怎么解决
  • 194
分享到

爬虫遇到需要登录的网站怎么解决

爬虫python服务器 2023-09-02 14:09:38 194人浏览 八月长安
摘要

在日常爬虫工作中我们会遇到这样需要先进行登录才能获取数据的网站,那在遇到这样的情况时我们需要怎么处理呢?今天我们就来简单的分享学习下爬虫对需要登录情况下得处理方式。 通常情况下,用户通过浏览器登录网站

在日常爬虫工作中我们会遇到这样需要先进行登录才能获取数据的网站,那在遇到这样的情况时我们需要怎么处理呢?今天我们就来简单的分享学习下爬虫对需要登录情况下得处理方式。
通常情况下,用户通过浏览器登录网站时,在特定的登录界面,输入个人登录信息,提交之后便能返回一个包含数据的网页。在浏览器层面的机制是,浏览器提交包含必要信息的Http Request,服务器返回http Response。在运行爬虫过程中我们可以通过2种方式进行登录。
1、使用表单登陆
这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。

import requestsdata = {'data1':'XXXXX', 'data2':'XXXXX'}response = requests.post(url=url, data=data)

使用cookie进行登录
使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。
Plain Text
复制代码

#! -*- encoding:utf-8 -*-import requestsimport randomimport requests.adapters# 要访问的目标页面targetUrlList = ["https://httpbin.org/ip","https://httpbin.org/headers","https://httpbin.org/user-agent",]# 代理服务器(产品官网 www.16yun.cn)proxyHost = "t.16yun.cn"proxyPort = "31111"# 代理隧道验证信息proxyUser = "username"proxyPass = "passWord"proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {"host": proxyHost,"port": proxyPort,"user": proxyUser,"pass": proxyPass,}# 设置 http和https访问都是用HTTP代理proxies = {"http": proxyMeta,"https": proxyMeta,}# 访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IPs = requests.session()# 设置cookiecookie_dict = {"jsESSION":"123456789"}cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)s.cookies = cookiesfor i in range(3):for url in targetUrlList:r = s.get(url, proxies=proxies)print r.text

若存在验证码,此时采用response = requests_session.post(url=url_login, data=data)是不行的,做法应该如下:
Plain Text
复制代码

response_captcha = requests_session.get(url=url_login, cookies=cookies)response1 = requests.get(url_login) # 未登陆response2 = requests_session.get(url_login) # 已登陆,因为之前拿到了Response Cookie!response3 = requests_session.get(url_results) # 已登陆,因为之前拿到了Response Cookie!

这只是其中的两种登录方式,有其他解决爬虫登录问题方法的可以留言大家交流学习下。

来源地址:https://blog.csdn.net/Z_suger7/article/details/128565793

--结束END--

本文标题: 爬虫遇到需要登录的网站怎么解决

本文链接: https://lsjlt.com/news/390855.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 爬虫遇到需要登录的网站怎么解决
    在日常爬虫工作中我们会遇到这样需要先进行登录才能获取数据的网站,那在遇到这样的情况时我们需要怎么处理呢?今天我们就来简单的分享学习下爬虫对需要登录情况下得处理方式。 通常情况下,用户通过浏览器登录网站...
    99+
    2023-09-02
    爬虫 python 服务器
  • Java目标网站反爬虫怎么解决
    这篇“Java目标网站反爬虫怎么解决”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Java目标网站反爬虫怎么解决”文章吧。一...
    99+
    2023-06-02
  • 使用代理ip遇到反爬虫的解决方法
    这篇文章主要介绍使用代理ip遇到反爬虫的解决方法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!分布式爬虫。我们爬虫的时候可以采用分布式的方法,有一定几率起到反爬虫的作用,也可以增加抓取量。保存cookies。当模拟登...
    99+
    2023-06-14
  • python解决网站的反爬虫策略总结
    本文详细介绍了网站的反爬虫策略,在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。 一般网站从三个方面反爬...
    99+
    2022-06-04
    爬虫 策略 网站
  • 学校wifi需要认证登录怎么解决
    一般学校都有校园网,就是认证类的WiFi,没有密码就可以连接的那种,但是连上不能上网,需要账号密码认证,一般都有几个或者10几个不同的校园网,这些校园网的来源一般都是学校安装的,或者校园网运营商安装的,有些废弃了就是无法正常认证使用了,但是...
    99+
    2023-09-08
    udp 服务器 网络
  • word遇到问题需要关闭的解决方法
    这篇文章主要介绍word遇到问题需要关闭的解决方法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!  第一步,打开word(不是WORD文件而是桌面上或者开始-程序里的word快捷方式) 出现了一个提示,显示...
    99+
    2023-06-06
  • 你的电脑遇到问题需要重新启动怎么解决
    当电脑遇到问题需要重新启动时,可以尝试以下解决方法:1. 重启电脑:按下电源按钮,选择重新启动。有时候只需简单的重新启动就可以解决一...
    99+
    2023-08-20
    电脑
  • 如何解决使用爬虫动态http代理遇到的问题
    这篇文章将为大家详细讲解有关如何解决使用爬虫动态http代理遇到的问题,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。爬取数据时,爬虫必须使用代理IP,否则无法顺利进行。使用代理IP爬虫时,用户也会出现一些...
    99+
    2023-06-20
  • win10提示你的电脑遇到问题需要重启怎么解决
    今天小编给大家分享一下win10提示你的电脑遇到问题需要重启怎么解决的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。具体操作:...
    99+
    2023-06-27
  • win10你的电脑遇到问题需要重新启动怎么解决
    本篇内容主要讲解“win10你的电脑遇到问题需要重新启动怎么解决”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“win10你的电脑遇到问题需要重新启动怎么解决”吧!win10你的电脑遇到问题需要重...
    99+
    2023-06-30
  • 计算机网络中常见网站反爬虫的解决措施
    这篇文章主要介绍计算机网络中常见网站反爬虫的解决措施,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1、最简单的方式便是校验User-Agent除了 User-Agent,所有通过 HTTP 请求传递到服务器的客户端参...
    99+
    2023-06-15
  • Java怎么实现开发网站注册、登录时经常需要用到短信验证码功能
    这篇文章主要讲解了“Java怎么实现开发网站注册、登录时经常需要用到短信验证码功能”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Java怎么实现开发网站注册、登录时经常需要用到短信验证码功能...
    99+
    2023-06-02
  • 备案的网站为什么需要解析
    网站备案后需要解析域名的原因:域名解析是把域名解析到网站空间IP,使用户可以通过域名访问到网站,域名解析就是将域名转换成服务器IP地址的过程,域名的解析工作是由DNS服务器完成的。如果不做域名解析的话,就不可以通过域名进行访问,只可以通过服...
    99+
    2024-04-02
  • win10你的设备遇到问题,需要重启的五种解决方法
      当我们使用win10电脑遇到“你的设备遇到问题,需要重启。我们只收集某些错误信息,然后为你重新启动”的错误信息提示的时候,我们应该怎么解决呢?这一般都是系统中软件冲突导致的,下面来看看详细的解决方法吧。   win10你的设备遇到问题,...
    99+
    2023-09-06
    microsoft 服务器 windows 经验分享 其他
  • 电脑显示网络可能需要其他登录信息如何解决
    这篇文章主要介绍了电脑显示网络可能需要其他登录信息如何解决的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇电脑显示网络可能需要其他登录信息如何解决文章都会有所收获,下面我们一起来看看吧。电脑显示网络可能需要其他登...
    99+
    2023-07-01
  • 代理ip怎么解决爬虫中的限制
    这篇文章主要讲解了“代理ip怎么解决爬虫中的限制”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“代理ip怎么解决爬虫中的限制”吧!代理IP可以帮助我们更换计算机IP,有了代理IP就可以解决IP...
    99+
    2023-06-20
  • 使用python怎么爬取网站的购买记录
    这期内容当中小编将会给大家带来有关使用python怎么爬取网站的购买记录,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。python的数据类型有哪些python的数据类型:1. 数字类型,包括int(整型)...
    99+
    2023-06-14
  • MyBatis+MyBatisPlus中遇到的坑怎么解决
    这篇文章主要介绍了MyBatis+MyBatisPlus中遇到的坑怎么解决的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇MyBatis+MyBatisPlus中遇到的坑怎么解决文章都会有所收获,下面我们一起来看...
    99+
    2023-07-05
  • 网站遇到错误号0x80245003不能更新的解决办法是怎样的
    网站遇到错误号0x80245003不能更新的解决办法是怎样的,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。错误 number:0x80245003。Wind...
    99+
    2023-06-14
  • win10需要选择一个管理员组账号登录问题怎么解决
    这篇文章主要讲解了“win10需要选择一个管理员组账号登录问题怎么解决”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“win10需要选择一个管理员组账号登录问题怎么解决”吧!解决方法: 第一种...
    99+
    2023-07-01
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作