同样是Python，Python3和P_编程网

上周，我的测试同事告诉我，你的用户名怎么还允许中文啊？当时我心里就想，你们测试肯定又搞错接口了，我用的是正则w过滤了参数，怎么可能出错，除非python正则系统出错了，那是不可能的。本着严谨的作风，我自己先测试一下，没问题看我怎么怼回去。可是当我测试，我就懵逼了，中文真TM都验证通过，不对啊，我以前也是这么过滤参数的，测试没问题啊？唯一的区别是现在用的是python3。
上网搜了一圈，发现没有一篇文章讲述Python2和Python3的正则在处理字符串是的区别，都是一视同仁，知道我去翻了一遍官方文档，才明白怎么回事。

问题复现

我们都知道，Python有个正则规则\w，几乎所有的网上博客文章都告诉你，这个规则匹配字母数字及下划线，但实际并不是这样：
有Python2代码如下：

~|⇒ pythonPython 2.7.10 (default, Aug 17 2018, 19:45:58)
[GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.0.42)] on darwinType "help", "copyright", "credits" or "license" for more infORMation.>>> import re>>> aa = '捕蛇者说'>>> re.match('\w{1,20}', aa)>>> bb = 'abc123ADB'>>> re.match('\w{1,20}', bb)
<_sre.SRE_Match object at 0x1031b0b28>

我们可以看到，在python2中，\w是无法匹配中文的。那么，同样的代码在Python3中运行结果是什么样子的了？

~|⇒ python3Python 3.7.1 (default, Nov 28 2018, 11:55:14)
[Clang 9.0.0 (clang-900.0.39.2)] on darwinType "help", "copyright", "credits" or "license" for more information.>>> import re>>> aa = '捕蛇者说'>>> re.match('\w{1,20}', aa)
<re.Match object; span=(0, 4), match='捕蛇者说'>>>> bb = 'abc123ADB'>>> re.match('\w{1,20}', bb)
<re.Match object; span=(0, 9), match='abc123ADB'>

但在Python3中\w是可以匹配中文的，这是怎么回事了？要回答这个问题，我们要回到Python官方文档中来寻找答案。

解决问题

当我们仔细阅读Python的官方文档时，就会发现，对于同样的正则规则\w，Python2和Python3区别好大，我们先来看看Python2：

When the LOCALE and UNICODE flags are not specified, matches any alphanumeric character and the underscore; this is equivalent to the set [a-zA-Z0-9_]. With LOCALE, it will match the set [0-9_] plus whatever characters are defined as alphanumeric for the current locale. If UNICODE is set, this will match the characters [0-9_] plus whatever is classified as alphanumeric in the Unicode character properties database.

翻译一下：当没有设置LOCALE(re.L)和UNICODE(re.U)标志，匹配数字字母和下划线，如果设置了LOCALE(re.L)则匹配数字下划线和LOCALE文字。如果设置了UNICODE(re.U)标志，匹配数字下划线和Unicode字符集里的字符。

那么Python3了：

对于 Unicode (str) 样式：
匹配Unicode词语的字符，包含了可以构成词语的绝大部分字符，也包括数字和下划线。如果设置了 ASCII 标志，就只匹配 [a-zA-Z0-9_] 。
对于8位(bytes)样式：
匹配ASCII字符中的数字和字母和下划线，就是 [a-zA-Z0-9_] 。如果设置了 LOCALE 标记，就匹配当前语言区域的数字和字母和下划线。

到此，我明白了，默认情况下，不设置任何标志，Python2 w匹配ASCII字符集里的字符，包括数字字符和下划线，Python3 w匹配数字下划线和Unicode字符集。所以，为了迁移方便，如果你想匹配ASCII字符集里的字符，指定标志为re.A，如果你想匹配Unicode字符集里的字符，指定标志为re.U。

总结

到此，我的问题是彻底解决了，但也有两个教训：

看网上的教程要多注意，特别是教程里的环境和自己环境的区别
多看官方文档

关于Python2和Python3，还有很多区别，这里就不一一列举了，欢迎大家留言讨论。

同样是Python，Python3和P

问题复现

解决问题

总结

同样是Python，Python3和P

centos 7 安装python3和P

哦？原来Python 面试题是这样的，P

C语言中p+1和(p+1)之间有什么不同

delete[] p-＞elems和free(p-＞elems)区别是什么

野子科技——同时使用Python2和P

c语言中*p和p的区别是什么

Python3和Python2有什么不同

python面试题Python2.x和P

CSS中div、br和p区别是什么

ASP 和 Spring 的接口同步是怎样实现的？

NPM 同步：Python 和 Bash 是否是最佳选择？

同一段程序在Java和C中的不同结果是怎么样的

debian下openvz和kvm同机部署安装是怎样的

C++和Python有什么相同和不同

python注释和运算符是怎样的

Python2和Python3对中分数的转化有何不同

Deepin 20.2中安装Python3和python3-pip的方法是什么

Python实现不同样式二维码

Linux文件同步rsync是怎样的

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义