首页 > 资讯 > 后端开发 > Python >如何用Python理清编码问题

726

分享到

如何用Python理清编码问题

2023-06-15 14:06:45 726人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

今天就跟大家聊聊有关如何用python理清编码问题，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。万国码为解决语言各自为政的编码，人们提出了Unicode编码方案，这个方案简单粗暴：把

今天就跟大家聊聊有关如何用python理清编码问题，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

万国码

为解决语言各自为政的编码，人们提出了Unicode编码方案，这个方案简单粗暴：把世界上所有语言字符统一编码。Unicode的两种方案UCS-2和UCS-4，可使用空间分别达到2^16和2^32个：外星人到访地球之前，应该是够用的。

我们看几个字符的Unicode编码码位(code point)是怎样的：

ls = 'abAB巩★☆' print([ord(l) for l in ls])

结果：[97, 98, 65, 66, 24041, 9733, 9734]。可见，字母abAB的Unicode码位和其ASCII码位一致，所以字符为字母时两者兼容，而汉字巩的码位为24041(0x5de9)，与之前的GB系列编码47534(0xb9ae)不同，所以Unicode和GB系列编码之间是不完全兼容的：只有ASCII部分兼容。

所有国家的人都使用Unicode编码之后，扩展、乱码问题都不复存在：所有人类语言字符都有了一个统一的编码码位，沟通中我们写出的每个数字编码，都有唯一的字符与他对应。Python中chr函数返回Unicode码位对应的字符。

>>> print([chr(i) for i in [123,957,24041]]) ['{', '&nu;', '巩']

那么我们可以使用强大的Unicode进行编码了么?

>>> ls = 'abAB巩★☆' >>> ls.encode('Unicode') Traceback (most recent call last):   File "<stdin>", line 1, in <module> LookupError: unknown encoding: Unicode

未知编码Unicode!这是因为，并不存在Unicode码这种编码形式，Unicode只是一个码位表，它只是建立了字符和整数之间的映射。至于整数码位(code point)如何存储成字节，先存高位低位，有没有特殊标志，Unicode并不直接决定，而是交给具体编码来考虑这些细节：UTF-32，UTF-16和UTF-8。

UTF-32 四字节为单位

UTF-32，顾名思义，是用32位，也就是四个字节来存储一个字符的编码方案。

>>> 'aA巩'.encode('utf-32LE') b'a\x00\x00\x00A\x00\x00\x00\xe9\x5d\x00\x00'

可见，所有的字符，都使用了四个字节来存储：每个字节除了Unicode码位之外，不足用\x00来填充。此法简单明了，Unicode码位不用转换，直接填充。但大量的\x00造成了极大的浪费。有没有办法解决这种浪费了?压缩下用两位行不行?

UTF-16 两字节为单位

当用UTF-16来编码时。

>>> 'aA巩'.encode('utf-16LE') b'a\x00A\x00\xe9\x5d'

两个字节对绝大多数Unicode码位来说是够用的，不够用的话系统自动用四位表示。这是系统实现，我们无需关心。UTF-16编码后的字节序列和字符，依然能够一一对应起来。UTF-16其实有两种编码方法，分别为上例的UTF-16LE和如下的UTF-16BE，测试：

>>> 'aA巩'.encode('utf-16BE') b'\x00a\x00A\x5d\xe9'

两者基本一样，只是高低字节位置发生了颠倒。LE和BE后缀，表示小字节序(little endian)和大字节序(big endian)。这是计算机内部关于字节的MSB(大权重字节)放在字节的开头还是结尾的具体实现细节。

《格列佛游记》中，小人国国民为吃鸡蛋先吃大头或小头，针锋相对，组成了两个军事对立集团big endians和little endians，相互间多次发动战争。

那么两个字节就是Unicode编码的极限了么?

UTF-8 变长字节编码

能不能用可变数目的字节来存储文本呢?如果存储的是英文文本的话，每个字符只用一个字节就可以;汉字的话，再进行扩展。如此来进一步节省存储空间。答案是可以的，这就是可变长度编码UTF-8。

>>> 'aA巩'.encode('utf-8') b'aA\xe5\xb7\xa9'

这是目前最短的字节序列，因为aA分别存储成了一个字节。需要注意的是，UTF-32和UTF-16中，巩的字节序列是0x5de9，但在UTF-8中，字节序列变成了0xe5b7a9。这说明UTF-8编码不是简单地把Unicode码位直接存储进字节序列中，而是进行了某些转换。这些转换，保证了英文用一位存储，汉语等较大字符多字节存储。那么是如何转换的呢?

UTF-8 编码转换规则

本部分过于细节，可略过。UTF-8实现了可变长度的编码，为解码时区分可变长度究竟多长，需要在字节序列里使用特殊模板。UTF-8编码遵循以下规则：

0x00-0x7F之间的码位，兼容ASCII码，单字节直接存储在以下模板 0*** ****
0x80-0x7ff之间，使用两个字节存储，字节模板是110* **** 10** ****
0x800-0xffff之间，使用三个字节存储，字节模板是1110 **** 10** **** 10** ****
0x10000-0x1fffff之间，使用四个字节存储，字节模板是1111 0*** 10** **** 10** **** 10** ****

以汉字巩为例，其Unicode码位为0x6c49，二进制位110 1100 0100 1001。位于第三行范围，所以需要三个字节来存储，写出模板，1110 **** 10** **** 10** ****，使用二进制，从右向左填充，不足部分补零，可得结果1110 0110 1011 0001 1000 1001，十六进制为0xe6 0xb7 0x89，所以巩编码为UTF-8的字节序列形式为0Xe6b789。让我们从UTF-8编码转换细节中，回到UTF三种编码的长度问题上来。

UTF三种编码后的长度

以上三种编码方式，由于压缩率不用，导致文件长度也不同，以下程序比较当文本为汉字和英语内容时，三种不同编码的长度：

es = 'abcdefghij' cs = '莫愁前路无知己，天下谁人不识君。'  codes = ['utf-32le','utf-16le','utf-8']  print([len(es.encode(code)) for code in codes]) print([len(cs.encode(code)) for code in codes])

输出为 [40, 20, 10] [64, 32, 48] 可见，对于英文来说，UTF-8比UTF-16和UTF-32编码都要有优势;对汉字来说，最有优势的反而是UTF16编码。这是因为UTF-16编码中，大部分汉字采用2Byte存储，而UTF-8中汉字需要三个字节存储。在日常生活中，因为考虑到最大兼容性，UTF-8使用的最为广泛。至此，我们从ASCII码到GB系列编码，再到Unicode和相应的UTF系列编码，一路进化，拥有了一个包罗万码，不会乱码和有较高压缩率的字符编码系统。可以使用了么?没有!因为我们只是编码了文本自身，并没有记载具体用了那个编码：当我们发送一份文件后，除非告诉对方，否则对方不知道应该该用什么编码打开它。解决这个问题，我们留待下篇文章分析。

Unicode统一了世界各语言字符。Unicode几种编码形式中;
UTF-32简单，但浪费严重。
UTF-16使用两个字节为单位存储，节省了空间。
UTF-8使用一个字节直接存储，是效率、空间的平衡。

看完上述内容，你们对如何用Python理清编码问题有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注编程网Python频道，感谢大家的支持。

您可能感兴趣的文档:

--结束END--

本文标题: 如何用Python理清编码问题

本文链接: https://lsjlt.com/news/280634.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

如何用Python理清编码问题

万国码

UTF-32 四字节为单位

UTF-16 两字节为单位

UTF-8 变长字节编码

UTF-8 编码转换规则

UTF三种编码后的长度

如何用Python理清编码问题

python编码问题

python如何解决中文编码乱码问题

python编码问题汇总

Python中的编码问题

Python之string编码问题

python 编码问题 utf8 ?Un

Python中文编码问题

PHP如何处理中文字符编码问题

如何解决mysql编码问题

如何解决Python unicode ascii编码在windows上的问题

详解python中文编码问题

如何弄清Python的时间和日期问题

如何使用Python和Django处理编程中的算法问题？

Python 3.x中的编码和解码问题

python中文编码乱码问题的解决

如何处理Python3.4 使用pymssql 乱码问题

如何理解Python RSS处理问题

如何解决MySQL字符集编码问题

如何解决PHP base64编码后解码乱码的问题

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义