首页 > 资讯 > 后端开发 > Python >python爬虫之url中的中文问题

833

分享到

python爬虫之url中的中文问题

爬虫中文 python 2023-01-31 06:01:32 833人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

在python的爬虫学习中,我们的url经常出现中文的问题,我们想要访问的url就需要对url进行拼接,变成浏览器可以识别的url在Python中已经有了这样的模块了,这就是urlencodeurlencode需要对中文和关键字组成一对字典

在python的爬虫学习中,我们的url经常出现中文的问题,
我们想要访问的url就需要对url进行拼接,变成浏览器可以识别的url
在Python中已经有了这样的模块了,这就是urlencode
urlencode需要对中文和关键字组成一对字典,然后解析成我们的url

在python2中是
urllib.urlencode(keyWord)
在Python中是
urllib.parse.urlencode(keyword)

查看一下代码:
python2

import urllib
import  urllib2

#例如我们需要在百度上输入个关键字哈士奇进行查询,但是哈士奇是中文的,我们需要对哈士奇进行编码
keyword = {"wd":"哈士奇"}

head_url = "Http://www.baidu.com/s"

headers = {
    "User-Agent":"Mozilla/5.0 (windows NT 10.0; WOW64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}

wd = urllib.urlencode(keyword)
url = head_url +"?"+ wd

req = urllib2.Request(url,headers=headers)

response = urllib2.urlopen(req)
html = response.read()
print(url)
print(html.count('哈士奇'))

结果如下:
python爬虫之url中的中文问题

在python3中:

# -*- coding: utf-8 -*-
# File  : url中出现的中文问题.py
# Author: HuXianyong
# Date  : 2018-09-13 17:39
from urllib import request
import urllib

#例如我们需要在百度上输入个关键字哈士奇进行查询,但是哈士奇是中文的,我们需要对哈士奇进行编码
keyword = {"wd":"哈士奇"}

head_url = "http://www.baidu.com/s"

headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}

wd = urllib.parse.urlencode(keyword)
url = head_url +"?"+ wd

req = request.Request(url,headers=headers)

response = request.urlopen(req)
html = response.read()

print(html.decode().count("哈士奇"))

print(url)

结果如下:
python爬虫之url中的中文问题

如果需要吧转换的字符变成中文
可以用unquota

如下:
python2
python爬虫之url中的中文问题

In [25]: dic = {"say":"你好!"}

In [26]: urllib.urlencode(dic)
Out[26]: 'say=%E4%BD%A0%E5%A5%BD%21'

In [27]: aa  = urllib.urlencode(dic)

In [28]: aa
Out[28]: 'say=%E4%BD%A0%E5%A5%BD%21'

In [29]: bb = urllib.unquote(aa)

In [30]: bb
Out[30]: 'say=\xe4\xbd\xa0\xe5\xa5\xbd!'

In [31]: print(bb)
say=你好!

python3
python爬虫之url中的中文问题

In [16]: dic = {"say":"你好!"}

In [17]: aa = urllib.parse.urlencode(dic)

In [18]: aa
Out[18]: 'say=%E4%BD%A0%E5%A5%BD%21'

In [19]: bb = urllib.parse.unquote(aa)

In [20]: bb
Out[20]: 'say=你好!'

但是如果我们的是post请求数据需要加在data里面这样就还需要对data做处理,不然会报字符串的错:

TypeError: POST data should be bytes or an iterable of bytes. It cannot be of type str.

这样的解决方法是需要加上个编码
data = urllib.parse.urlencode(fORMData).encode(encoding="UTF8")
python爬虫之url中的中文问题

代码如下:

# -*- coding: utf-8 -*-
# File  : ajax爬取豆瓣电影列表.py
# Author: HuXianyong
# Date  : 2018-09-14 14:35

import urllib
from urllib import request

url = "https://movie.douban.com/j/new_search_subjects?"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}

formData = {
    "sort": "S",
    "range": "0,10",
    "tags": "电影,魔幻",
    "start": "0",
    "genres": "剧情"
}

data = urllib.parse.urlencode(formData).encode(encoding="UTF8")

req = request.Request(url=url,data=data,headers=headers)

response = request.urlopen(req)
move_info = response.read().decode()
print(response.read().decode())

您可能感兴趣的文档:

--结束END--

本文标题: python爬虫之url中的中文问题

本文链接: https://lsjlt.com/news/189707.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

python爬虫之url中的中文问题

python爬虫之url中的中文问题

python爬虫之 URL的一般格式

Python爬虫如何爬取网页中所有的url

【爬虫 | Python】解决‘Requests Max Retries Exceeded With Url‘报错的问题

Python爬虫问题有哪些

如何在Python中处理网络爬虫的问题

Python爬虫之爬取某文库文档数据

Python中爬虫编程的常见问题及解决方案

Python中常见的网络爬虫问题及解决方案

Python爬虫框架之Scrapy中Spider的用法

【Python3爬虫】用Python中的

Python爬虫之在MySQL中存储数据

nodejs爬虫抓取数据之编码问题

Python爬虫之Requests库的基

Python解决爬虫程序卡死问题

Python爬虫基础之爬虫的分类知识总结

运维学python之爬虫中级篇（九）Py

运维学python之爬虫中级篇（七）Sq

python爬虫中分布式爬虫的作用是什么

详解nodejs爬虫程序解决gbk等中文编码问题

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义