返回顶部
首页 > 资讯 > 后端开发 > Python >Python3 urllib.reque
  • 949
分享到

Python3 urllib.reque

urllibreque 2023-01-31 08:01:31 949人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

urllib.request库 是 python3 自带的模块(不需要下载,导入即可使用)python 自带的模块库文件都是在C:\Python\Lib目录下(C:\Python是我Python的安装目录),python第三方模块库都是在C

urllib.request库 是 python3 自带的模块(不需要下载,导入即可使用)
python 自带的模块库文件都是在C:\Python\Lib目录下(C:\Python是我Python的安装目录),python第三方模块库都是在C:\Python\Lib\site-packages 下。
urllib.request库在windows下的路径(C:\Python\Lib\urllib)。


import urllib.request                                                                                      # 导入urllib.request 库
response = urllib.request.urlopen("https://blog.51cto.com/alun51cto")        # 向指定的url发送请求,并返回服务器响应的类文件对象。urlopen方法支持重定向

# 服务器返回的类文件对象支持Python文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
html = response.read()

print(html)                                                                                      # 打印响应的内容

注:urllib.request 里的 urlopen()不支持构造HTTP请求,不能给编写的请求添加head,无法模拟真实的浏览器发送请求。

python的“User-agent”默认的是client_version,而client_version = "Python-urllib/%s" % version
urllib.request库的urlopen()方法默认的“User-agent”是本机Python的版本(User-agent:Python-urllib/3.4),对于服务器而言,一下就能识别出这是爬虫
urlopen()的参数就是一个url地址;但是如果需要执行更复杂的操作,比如增加Http报头,必须创建一个 Request 实例来作为urlopen()的参数;而需要访问的url地址则作为 Request 实例的参数。

import urllib.request                                                                                  # url 作为Request()方法的参数,构造并返回一个Request对象
request = urllib.request.Request("https://blog.51cto.com/alun51cto")      # Request对象作为urlopen()方法的参数,发送给服务器并接收响应
response = urllib.request.urlopen(request)
html = response.read()
print(html)

运行结果:跟第一个代码是一样。
Request实例,除了必须要有 url 参数之外,还可以设置另外两个参数:
data:如果是GET请求,data(默认空),如果是POST请求,需要加上data参数,伴随 url 提交的数据。
headers(默认空):是一个字典,包含了需要发送的HTTP报头的键值对。
通过抓包可以抓到https://blog.51cto.com/alun51cto 请求的head信息

【Host】:主域 (发请求时,可以不写)
【Connection: keep-alive】:保持登录后的长连接
【User-Agent】:最重要的参数
【Accept】:接受数据的格式,例如:text文本、JSON等
【Accept-Encoding】:数据的压缩方式 (爬虫不是服务器,没有解压方法,不能写)
【Accept-Language】:支持的语言 (可以不写)
【Cookie】:缓存,Cookie在爬虫里主要获取登录后的状态,跟登录相关的可以用Cookie处理,如果只是获取一个静态页面的数据,就不需要用Cookie。

WEB项目通过都是通过浏览器去访问,要想真实模拟一个用户用浏览器去访问web项目,在发送请求的时候,会有不同的User-Agent头。 urllib默认的User-Agent头为:Python-urllib/x.y,所以就需要我们在发request请求的时候添加一个head信息

import urllib.request

header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36" 
}
request = urllib.request.Request("https://blog.51cto.com/alun51cto")           # url 作为Request()方法的参数,构造并返回一个Request对象
response = urllib.request.urlopen(request)                                                    # Request对象作为urlopen()方法的参数,发送给服务器并接收响应
html = response.read()
print(html)
import urllib.request

url ="https://blog.51cto.com/alun51cto"
header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
}

request = urllib.request.Request(url)                      # url 作为Request()方法的参数,构造并返回一个Request对象
request.add_header("Connection", "keep-alive")   #也可以通过调用request.add_header() 添加/修改一个特定的header
print(request.get_header(header_name="Connection"))  # 也可以通过调用Request.get_header()来查看header信息
response = urllib.request.urlopen(request)            # Request对象作为urlopen()方法的参数,发送给服务器并接收响应
html = response.read()
#print(html)
import urllib.request
import random

url = "https://blog.51cto.com/alun51cto"

#定义一个User-Agent列表
user_agent_list = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36,",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
    "Mozilla/5.0 (Macintosh; Intel Mac OS... "
]
user_agent = random.choice(user_agent_list)              #随机抽取一个User-Agent值
request = urllib.request.Request(url)                             # url 作为Request()方法的参数,构造并返回一个Request对象
request.add_header("User-Agent", user_agent)           #通过调用Request.add_header() 添加一个特定的header
print(request.get_header("User-agent"))                       # 第一个字母大写,后面的全部小写
response = urllib.request.urlopen(request)                   # Request对象作为urlopen()方法的参数,发送给服务器并接收响应
html = response.read()
print(html)

--结束END--

本文标题: Python3 urllib.reque

本文链接: https://lsjlt.com/news/192759.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python3 urllib.reque
    urllib.request库 是 Python3 自带的模块(不需要下载,导入即可使用)python 自带的模块库文件都是在C:\Python\Lib目录下(C:\Python是我Python的安装目录),python第三方模块库都是在C...
    99+
    2023-01-31
    urllib reque
  • Python3教程——5、Python3
            一、Pycharm常用快捷键 有颜色的为很常用,或不易发现   编辑类: Ctrl + Space 基本的代码完成(类、方法、属性) Ctrl + Alt + Space 类名完成 Ctrl + Shift + Ent...
    99+
    2023-01-31
    教程
  • python3 GUI
    用python3创建窗口并显示 修改窗口的名字 在窗口中加入标签 在窗口中加入按钮 使按钮有实际意义 添加可编辑文本框 用Tkinter实现一个简单的GUI程序,单击click按钮时会在终端打印出’hello world’...
    99+
    2023-01-31
    GUI
  • python3 __name__
    我们经常会在各种代码中见到一个__name__ == '__main__', 这究竟是什么意思呢 当一个python文件是被当做一个脚本运行的时候, 它的__name__就为__main__, 比如以下代码 >>>...
    99+
    2023-01-31
  • Python3 spider
    http://blog.jobbole.com/77821/Python3网络爬虫的一个资料,还可以,备份。...
    99+
    2023-01-31
    spider
  • python3 asyncio
    asyncio 是用来编写 并发 代码的库,使用 async/await 语法。asyncio 被用作多个提供高性能 Python 异步框架的基础,包括网络和网站服务,数据库连接库,分布式任务队列等等...
    99+
    2023-01-31
    asyncio
  • Python3 CookBook |
    文章首发于知乎专栏,欢迎关注。https://zhuanlan.zhihu.com/py... 以下测试代码全部基于 Python3 1、查找最大或最小的 N 个元素 工作中有时会遇到这样的需求,取出数据中前面 10% 的值,或者最后 1...
    99+
    2023-01-31
    CookBook
  • python3 day7
    三层目录:功能要求:1. 输入即可进入下一层2. 按q退出3. 按b可以回退到上一层代码:#!/usr/bin/env python# -*- coding:utf-8 -*-menu={    '山东':{        '青岛': ['...
    99+
    2023-01-31
  • python3 cookbook
    使用deque(maxlen=N)构造函数会新建一个固定大小的队列.当新的元素加入并且这个队列已满的时候,最老的元素会被移除掉.在队列两端插入或者删除元素时间复杂度都是O(1), 而在列表的开头插入或删除元素的时间复杂度为O(N).当要查找...
    99+
    2023-01-31
    cookbook
  • python3 functions
    print('strings',end='')input()len()str() int() float()True Falseand not orif elif else while break continuefor i in rang...
    99+
    2023-01-31
    functions
  • Python3 urllib.parse
    1、获取url参数。>>> from urllib import parse >>> url = r'https://docs.python.org/3.5/search.htmlq=parse&...
    99+
    2023-01-31
    urllib parse
  • Python3 django2.0
    以下设置,适用于python3.5及以前的 pip install pycrypto import base64 from Crypto.Cipher import AES from Crypto import Random B...
    99+
    2023-01-31
  • python3_01.python3.
    CentOS 6.5 安装Python 3.5本篇文章来源于 Linux公社网站(www.linuxidc.com)  原文链接:http://www.linuxidc.com/Linux/2015-11/124908.htm1、CentO...
    99+
    2023-01-31
  • python3+requests:pos
      前言:post请求我在python接口自动化2-发送post请求详解(二)已经讲过一部分了,主要是发送一些较长的数据,还有就是数据比较安全等,可以参考Get,Post请求方式经典详解进行学习一下。 我们要知道post请求四种传送正文...
    99+
    2023-01-31
    requests pos
  • python3-numpy
    参考地址: 1、https://www.shiyanlou.com/courses/912 2、https://www.shiyanlou.com/courses/348 3、https://docs.scipy.org/doc/nump...
    99+
    2023-01-31
    numpy
  • python3-socketserver
    目录 socketserver模块 基于TCP链接的简单并发程序 基于UDP无链接的简单并发程序 错误笔记: ConnectionAbortedError: [WinError 10053] 你的主机中的软件中止了一个已建立的连接。 Co...
    99+
    2023-01-31
    socketserver
  • python3- global
    ''' global函数的使用 ''' # 全局定义一个参数a global a a=4 # 给a赋值a=3 def inita(): # 全局定义一个参数a global a a=3 inita()...
    99+
    2023-01-31
    global
  • Python3 isinstance()
    描述 isinstance() 函数来判断一个对象是否是一个已知的类型,类似 type()。 isinstance() 与 type() 区别: type() 不会认为子类是一种父类类型,不考虑继承关系。 isinstance(...
    99+
    2023-01-31
    isinstance
  • Python3 类
    目录 Python3 类 继承 项目组织方式 类编码风格 在Python中,首字母大写的名称值得是类,而小写的名称指的是根据类创建的实例。 Python类中的每个属性都必须有初始值。可以在__init__()方法内为某个属性设置默认初始...
    99+
    2023-01-31
  • python3--进程
    进程顾名思义,进程即正在执行的一个过程。进程是对正在运行程序的一个抽象。进程的概念起源于操作系统,是操作系统最核心的概念,也是操作系统提供的最古老也是最重要的抽象概念之一。操作系统的其他所有内容都是围绕进程的概念展开的一 操作系统...
    99+
    2023-01-30
    进程
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作