首页 > 资讯 > 后端开发 > Python >浅谈Python爬取网页的编码处理

822

分享到

浅谈Python爬取网页的编码处理

浅谈网页 Python 2022-06-04 18:06:12 822人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

背景中秋的时候，一个朋友给我发了一封邮件，说他在爬链家的时候，发现网页返回的代码都是乱码，让我帮他参谋参谋(中秋加班，真是敬业= =！)，其实这个问题我很早就遇到过，之前在爬小说的时候稍微看了一下，不过没

背景

中秋的时候，一个朋友给我发了一封邮件，说他在爬链家的时候，发现网页返回的代码都是乱码，让我帮他参谋参谋(中秋加班，真是敬业= =！)，其实这个问题我很早就遇到过，之前在爬小说的时候稍微看了一下，不过没当回事，其实这个问题就是对编码的理解不到位导致的。

问题

很普通的一个爬虫代码，代码是这样的：


# ecoding=utf-8
import re
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'Http://gimoo.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'
res = requests.get(url)
print res.text

目的其实很简单，就是爬一下链家的内容，但是这样执行之后，返回的结果，所有涉及到中文的内容，全部会变成乱码，比如这样

查看图片


<script type="text/template" id="newAddHouseTpl">
 <div class="newAddHouse">
  è‡ªä»Žæ‚¨ä¸Šæ¬¡æµè§ˆï¼ˆ<%=time%>ï¼‰ä¹‹åŽï¼Œè&Macr;¥æœç´¢æ¡ä»¶ä¸‹æ?°å¢žåŠ äº†<%=count%>å¥—æˆ¿æº
  <a href="<%=url%>" class="LOGNEWERSHOUFANGSHOW" <%=logText%>><%=linkText%></a>
  <span class="newHouseRightClose">x</span>
 </div>
</script>

这样的数据拿来可以说毫无作用。

问题分析

这里的问题很明显了，就是文字的编码不正确，导致了乱码。

查看网页的编码

从爬取的目标网页的头来看，网页是用utf-8来编码的。


<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

所以，最终的编码，我们肯定也要用utf-8来处理，也就是说，最终的文本处理，要用utf-8来解码，也就是：decode('utf-8')

文本的编码解码

python的编码解码的过程是这样的，源文件 ===》 encode(编码方式) ===》decode(解码方式)，在很大的程度上，不推荐使用


import sys
reload(sys)
sys.setdefaultencoding('utf8')

这种方式来硬处理文字编码。不过在某些时候不影响的情况下，偷偷懒也不是什么大问题，不过比较建议的就是获取源文件之后，使用encode和decode的方式来处理文本。

回到问题

现在问题最大的是源文件的编码方式，我们正常使用requests的时候，它会自动猜源文件的编码方式，然后转码成Unicode的编码，但是，毕竟是程序，是有可能猜错的，所以如果猜错了，我们就需要手工来指定编码方式。官方文档的描述如下：

When you make a request, Requests makes educated guesses about the encoding of the response based on the HTTP headers. The text encoding guessed by Requests is used when you access r.text. You can find out what encoding Requests is using, and change it, using the r.encoding property.

所以我们需要查看requests返回的编码方式到底是什么？


# ecoding=utf-8
import re
import requests
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://gimoo.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
print res.encoding

打印的结果如下：

ISO-8859-1

也就是说，源文件使用的是ISO-8859-1来编码。百度一下ISO-8859-1，结果如下：

ISO8859-1，通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。

问题解决

发现了这个东东，问题就很好解决了，只要指定一下编码，就能正确的打出中文了。代码如下：


# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://gimoo.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
res.encoding = ('utf8')

print res.text

打印的结果就很明显，中文都正确的显示出来了。

查看图片

另一种方式是在源文件上做解码和编码，代码如下：


# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://gimoo.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
# res.encoding = ('utf8')

print res.text.encode('ISO-8859-1').decode('utf-8')

另：ISO-8859-1也叫做latin1，使用latin1做解码结果也是正常的。

关于字符的编码，很多东西可以说，想了解的朋友可以参考以下大神的资料。

•《The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)》

以上这篇浅谈Python爬取网页的编码处理就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持编程网。

您可能感兴趣的文档:

--结束END--

本文标题: 浅谈Python爬取网页的编码处理

本文链接: https://lsjlt.com/news/14037.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

浅谈Python爬取网页的编码处理

浅谈Python爬取网页的编码处理

Python灰帽编程——网页信息爬取

浅谈Python的异常处理

浅谈Python处理PDF的方法

Python爬取网页的所有内外链的代码

python 爬取豆瓣网页的示例

python爬取网页的操作步骤

Python爬虫如何爬取网页中所有的url

浅谈 Python 网络爬虫的那些事（文末送书7.0）

Python用requests-html爬取网页的实现

python怎么爬取搜索后的网页

python 获取网页编码方式实现代码

爬取某网站写的python代码

Python爬虫爬取美剧网站的实现代码

浅谈Python数据处理csv的应用小结

python爬取动态网页的方法是什么

python怎么爬取网页内的指定内容

Python实现网页爬虫基本实现代码怎么编写

Python：使用爬虫抓取网页中的视频并下载（完整源码）

Python爬取网页中的图片（搜狗图片）详解

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义