urllib高级用法--登陆和cookies的使用

高级 urllib cookies 2023-01-30 22:01:06 914人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

对于一些更高级的操作(比如Cookies处理,代理设置,登陆验证),urllib怎么实现?需要更强大的工具Handler登场了,有专门处理登录验证的,有处理Cookies的,用处理代理设置的,几乎做到Http请求的所有事情。Handler子

对于一些更高级的操作(比如Cookies处理,代理设置,登陆验证),urllib怎么实现?需要更强大的工具Handler登场了,有专门处理登录验证的,有处理Cookies的,用处理代理设置的,几乎做到Http请求的所有事情。

Handler子类继承BaseHandler 类

HITPDefaultErrorHandler ：用于处理Http响应错误，错误都会抛出 HTTPError 类型的异常。

HTTPRedirectHandler ：用于处理重定向。

HTTPCookieProcessor ：用于处理Cookies。

ProxyHandler ：用于设置代理，默认代理为空。

HTTPPassWordMgr ：用于管理密码，它维护了用户名和密码的表。

HTTPBasicAuthHandler ：用于管理认证，如果一个链接打开时需要认证，那么可以用它来解决认证问题.

更多详情参考:https://docs.python.org/3/library/urllib.request.html#urllib.request.BaseHandler

利用Handler来构建Opener

验证：有些网站打开就会提示输入用户名和密码，验证成功后才能查看页面

这样的请求页面,怎么办？借助HTTPBasicAuthHandler 就可以完成，完整代码如下:

#!/usr/bin/env Python
# coding: utf-8
from urllib.request import HTTPPasswordMgrWithDefaultRealm
from urllib.request import HTTPBasicAuthHandler
from urllib.request import build_opener
from urllib.request import URLError

username = 'root'
password = '123456'
url = 'http://localhost:5000'

p = HTTPPasswordMgrWithDefaultRealm()
p.add_password(None, url, username, password)
auth_handler = HTTPBasicAuthHandler(p)
opener = build_opener(auth_handler)

try:
    ret = opener.open(url)
    html = ret.read().decode('utf8')
    print(html)
except URLError as e:
    print(e.reason)

运行结果，可以看到已经登录成功

代理IP的使用

在写爬虫的时候，免不了要使用代理，如果要添加代理，可以这样做:

from urllib.request import ProxyHandler,build_opener
from urllib.error import URLError

proxy_handler = ProxyHandler({
    'http': 'http://163.158.203.206:8080',
})
opener = build_opener(proxy_handler)
try:
    response = opener.open('https://www.baidu.com')
    print(response.read().decode('utf8'))
except URLError as e:
    print(e.reason)

注释:使用了ProxyHandler,其参数是一个字典，键为协议类型(HTTP或者HTTPS等),value是代理链接，可以添加多个代理，利用Handler及build_opener()方法构造一个Opener,之后发送请求即可。

Cookies

Cookies的处理就需要相关的Handler了

实例：怎么获取网站的Cookies

代码如下:

import http.cookiejar
import urllib.request

cookie = http.cookiejar.CookieJar()
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
for item in cookie:
    print(item.name + "=" + item.value)

运行结果如下:

这里输出了每条Cookie的名称和值

如何输出成文件格式呢?代码如下:

import http.cookiejar
import urllib.request

filename = 'cookies.txt'
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True, ignore_expires=True)

运行程序后，生成cookies.txt文件，内容如下:

另外，LWPCookieJar同样可以读取和保存Cookies,但是保存的格式和MozillaCookieJar不一样,要保存成LWP格式的Cookies文件，可以在声明时就改为:cookie = http.cookiejar.LWPCookieJar(filename),代码如下:

import http.cookiejar
import urllib.request

filename = 'cookies.txt'
cookie = http.cookiejar.LWPCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True, ignore_expires=True)

运行后，生成cookies.txt文件内容如下：

生成Cookies文件后，怎样从文件中读取并利用呢？

下面以LWPCookieJar格式为例来看一下:

import http.cookiejar
import urllib.request

cookie = http.cookiejar.LWPCookieJar()
cookie.load('cookies.txt', ignore_discard=True, ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
print(response.read().decode('utf8'))

运行结果如下：

注释：这里调用load()方法来读取本地的Cookies文件，获取到了Cookies的内容，前提是首先生成了LWPCookieJar格式的Cookies，并保存成文件，然后读取Cookies使用同样的方法构建Handler和Opener即可完成操作

这些是urllib库中request模块的基本用法，想知道更多，可以参考：

官方文档说明：https://docs.python.org/3/library/urllib.request.html#basehandler-objects

您可能感兴趣的文档:

--结束END--

本文标题: urllib高级用法--登陆和cookies的使用

本文链接: https://lsjlt.com/news/179182.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

urllib高级用法--登陆和cookies的使用

对于一些更高级的操作(比如Cookies处理,代理设置,登陆验证),urllib怎么实现需要更强大的工具Handler登场了,有专门处理登录验证的,有处理Cookies的,用处理代理设置的,几乎做到http请求的所有事情。Handler子类...

99+

2023-01-30

高级 urllib cookies
Python3学习urllib的使用方法示例

urllib是python的一个获取url(Uniform Resource Locators,统一资源定址符)了，可以利用它来抓取远程的数据进行保存，本文整理了一些关于urllib使用中的一些关于head...

99+

2022-06-04

示例使用方法 urllib
使用dos破除windowsxp登陆密码的方法

用DOS启 del c:Windowssystem32configsam copy c:windwos epairsam (有个空格）c:windowssystem32config 然后重启进入Windows，有个提示不...

99+

2023-06-04

windowsxp登陆密码 dos windowsxp 登陆密码方法
mysql中如何使用limit的高级用法

本文主要给大家简单讲讲mysql中如何使用limit的高级用法，相关专业术语大家可以上网查查或者找一些相关书籍补充一下，这里就不涉猎了，我们就直奔主题吧，希望mysql中如何使用limit的高级用法这篇文章...

99+

2024-04-02
JavaScript的高级概念和用法详解

目录1. 闭包2. 函数绑定3.使用命名空间4. 判断属性是否存在5. 解构赋值6.遍历对象属性7. 过滤数组8. 消除重复值9. 判断是否数组10. 转换数字和字符串11. 转换为...

99+

2024-04-02
Linux系统怎么安装FTP和登陆使用

本篇内容主要讲解“Linux系统怎么安装FTP和登陆使用”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Linux系统怎么安装FTP和登陆使用”吧!对于一个经常接触电脑的人来说，FTP无形中出现在...

99+

2023-06-13
Laravel中where的高级使用方法

这篇文章主要介绍了Laravel中where的高级使用方法，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。有时候项目中需要进行多个字段搜索就可以用到此方法在Larav...

99+

2023-06-08
FastDFS的高级用法(3)

在storage上安装nginx简介：为每个storage节点安装nginx,使其能够通过http协议,展示文件 nginx此时作为storage节点的客户端仍然使用上一篇的环境,此时tracker,storage,client都已...

99+

2023-01-31

高级 FastDFS
Ajax登陆如何使用Spring Security缓存跳转到登陆前的链接

小编给大家分享一下Ajax登陆如何使用Spring Security缓存跳转到登陆前的链接，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解...

99+

2024-04-02
Vim高级使用方法有哪些

这篇文章主要介绍了Vim高级使用方法有哪些的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Vim高级使用方法有哪些文章都会有所收获，下面我们一起来看看吧。你会发现，使用 Vim 非常方便的的场景几乎总是涉及到运行...

99+

2023-06-27
bash高级使用方法有哪些

小编给大家分享一下bash高级使用方法有哪些，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！linux的发布版本之一--Redhat/CentOS--系统默认安装的...

99+

2023-06-27
Java高级之HashMap中的entrySet()方法使用

目录基本使用原理剖析总结基本使用 entrySet()方法得到HashMap中各个键值对映射关系的集合。然后Map.Entry中包含了getKey()和getValue()方法获取...

99+

2023-03-22

Java HashMap Java entrySet()方法 Java HashMap entrySet()方法
Java中ModelMapper 的高级使用

目录ModelMapper高级使用使用实例实体类ModelMapper配置类ModelMapperService类测试类测试结果ModelMapper 高级使用 &ems...

99+

2024-04-02
使用Post方法模拟登陆爬取网页的实现方法

最近弄爬虫，遇到的一个问题就是如何使用post方法模拟登陆爬取网页。下面是极简版的代码：import java.io.BufferedReader;import java.io.InputStreamReader;import java.i...

99+

2023-05-31

java post 模拟登陆
python中的logging模块的简单应用和高级使用

目录简单使用日志格式输出到文件处理程序（Handler）过滤器（Filter）高级使用日志回溯日志轮换日志缓冲总结简单使用在 Python 中，可以使用内置的 logging 模块...

99+

2023-05-17

python logging模块 logging应用
linux下rsync的基础介绍和高级用法

这篇文章主要介绍“linux下rsync的基础介绍和高级用法”，在日常操作中，相信很多人在linux下rsync的基础介绍和高级用法问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”linux下rsync的基础介...

99+

2023-06-05
gojs一些实用的高级用法

目录1. 取消更新动画2. 导出图（含可视区外的部分）3. 禁用 ctrl 相关快捷键4. 画布滚动模式，无限滚动 or 局部滚动5. 展开收起多层嵌套的组6. 给图元素加动画7. ...

99+

2024-04-02
Linux 下nmon的高级使用方法有哪些

这篇文章主要介绍了Linux 下nmon的高级使用方法有哪些，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。nmon是一种在AIX与各种Linux操作系统上广泛使用的监控与分析...

99+

2023-06-27
Java中ModelMapper的高级使用方法有哪些

本篇内容介绍了“Java中ModelMapper的高级使用方法有哪些”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！ModelMapper 高...

99+

2023-06-29
python爬虫urllib库中parse模块urlparse的使用方法

这篇文章主要介绍了python爬虫urllib库中parse模块urlparse的使用方法，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。在python爬虫urllib库中，u...

99+

2023-06-14