首页 > 资讯 > 后端开发 > Python >Python怎么用re模块实现简易tokenizer

139

分享到

Python怎么用re模块实现简易tokenizer

2023-06-30 11:06:01 139人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章主要介绍“python怎么用re模块实现简易tokenizer”，在日常操作中，相信很多人在Python怎么用re模块实现简易tokenizer问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Pytho

这篇文章主要介绍“python怎么用re模块实现简易tokenizer”，在日常操作中，相信很多人在Python怎么用re模块实现简易tokenizer问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python怎么用re模块实现简易tokenizer”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

一个简单的tokenizer

分词（tokenization）任务是Python字符串处理中最为常见任务了。我们这里讲解用正则表达式构建简单的表达式分词器（tokenizer），它能够将表达式字符串从左到右解析为标记(tokens)流。

给定如下的表达式字符串：

text = 'foo = 12 + 5 * 6'

我们想要将其转换为下列以序列对呈现的分词结果：

tokens = [('NAME', 'foo'), ('EQ', '='), ('NUM', '12'), ('PLUS', '+'),\    ('NUM', '5'), ('TIMES', '*'), ('NUM', '6')]

要完成这样的分词操作，我们首先需要定义出所有可能的标记模式（所谓模式（pattern），为用来描述或者匹配/系列匹配某个句法规则的字符串，这里我们用正则表达式来做为模式），注意此处要包括空格whitespace，否则字符串中出现任何模式中没有的字符后，扫描就会停止。因为我们还需要给标记以NAME、EQ等名称，我们采用正则表达式中的命名捕获组来实现。

import reNAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)' # 这里?P<NAME>表示模式名称，()表示一个正则表达式捕获组，合在一起即一个命名捕获组EQ = r'(?P<EQ>=)'NUM = r'(?P<NUM>\d+)' #\d表示匹配数字，+表示任意数量PLUS = r'(?P<PLUS>\+)' #需要用\转义TIMES = r'(?P<TIMES>\*)' #需要用\转义WS = r'(?P<WS>\s+)' #\s表示匹配空格， +表示任意数量master_pat = re.compile("|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))  # | 用于选择多个模式，表示"或"

接下来我们用模式对象中的scanner()方法来完成分词操作，该方法创建一个扫描对象：

scanner = master_pat.scanner(text)

然后可以用match()方法获取单次匹配结果，一次匹配一个模式：

scanner = master_pat.scanner(text)m = scanner.match() print(m.lastgroup, m.group()) # NAME foom = scanner.match()print(m.lastgroup, m.group()) # WS

当然这样一次一次调用过于麻烦，我们可以使用迭代器来批量调用，并将单次迭代结果以具名元组形式存储

Token = namedtuple('Token', ['type', 'value'])def generate_tokens(pat, text):    scanner = pat.scanner(text)    for m in iter(scanner.match, None):        #scanner.match做为迭代器每次调用的方法，        #None为哨兵的默认值，表示迭代到None停止        yield Token(m.lastgroup, m.group())    for tok in generate_tokens(master_pat, "foo = 42"):    print(tok)

最终显示表达式串"foo = 12 + 5 * 6"的tokens流为：

Token(type='NAME', value='foo')Token(type='WS', value=' ')Token(type='EQ', value='=')Token(type='WS', value=' ')Token(type='NUM', value='12')Token(type='WS', value=' ')Token(type='PLUS', value='+')Token(type='WS', value=' ')Token(type='NUM', value='5')Token(type='WS', value=' ')Token(type='TIMES', value='*')Token(type='WS', value=' ')Token(type='NUM', value='6')

过滤tokens流

接下来我们想要过滤掉空格标记，使用生成器表达式即可：

tokens = (tok for tok in generate_tokens(master_pat, "foo = 12 + 5 * 6")          if tok.type != 'WS')for tok in tokens:    print(tok)

可以看到空格被成功过滤：

Token(type='NAME', value='foo')Token(type='EQ', value='=')Token(type='NUM', value='12')Token(type='PLUS', value='+')Token(type='NUM', value='5')Token(type='TIMES', value='*')Token(type='NUM', value='6')

注意子串匹配陷阱

tokens在正则表达式(即"|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))中顺序也非常重要。因为在进行匹配时，re模块就会按照指定的顺序对模式做匹配。故若碰巧某个模式是另一个较长模式的子串时，必须保证较长的模式在前面优先匹配。如下面分别展示正确的和错误的匹配方法：

LT = r'(?P<LT><)'LE = r'(?P<LE><=)'EQ = r'(?P<EQ>>=)'master_pat = re.compile("|".join([LE, LT, EQ]))  # 正确的顺序master_pat = re.compile("|".join([LT, LE, EQ]))  # 错误的顺序

第二种顺序的错误之处在于，这样会把'<='文本匹配为LT('<')紧跟着EQ('=')，而没有匹配为单独的LE(<=)。

我们对于“有可能”形成子串的模式也要小心，比如下面这样：

PRINT = r'(?P<PRINT>print)'NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)'master_pat = re.compile("|".join([PRINT, NAME]))  # 正确的顺序for tok in generate_tokens(master_pat, "printer"):    print(tok)

可以看到被print实际上成了另一个模式的子串，导致另一个模式的匹配出现了问题：

# Token(type='PRINT', value='print')# Token(type='NAME', value='er')

更高级的语法分词，建议采用像PyParsing或PLY这样的包。特别地，对于英文自然语言文章的分词，一般被集成到各类NLP的包中（一般分为按空格拆分、处理前后缀、去掉停用词三步骤）。对于中文自然语言处理分词也有丰富的工具（比如jieba分词工具包）。

引用

[1] Martelli A, Ravenscroft A, Ascher D. Python cookbook[M]. " O'Reilly Media, Inc.", 2015.

到此，关于“Python怎么用re模块实现简易tokenizer”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注编程网网站，小编会继续努力为大家带来更多实用的文章！

您可能感兴趣的文档:

--结束END--

本文标题: Python怎么用re模块实现简易tokenizer

本文链接: https://lsjlt.com/news/328540.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python怎么用re模块实现简易tokenizer

一个简单的tokenizer

过滤tokens流

注意子串匹配陷阱

引用

Python怎么用re模块实现简易tokenizer

Python技法之如何用re模块实现简易tokenizer

Python怎么利用re模块实现简易分词

Python利用re模块实现简易分词(tokenization)

Python的Re模块怎么用

怎么在python中使用re模块

Python中如何使用re模块实现okenizer

python自动化的re模块怎么用

Python模块怎么实现简单的调用

Python中re模块的元字符怎么使用

python正则表达式re模块怎么使用

python区块链简易版交易实现示例

Python使用re模块实现okenizer(表达式分词器)

python区块链简易版交易完善挖矿奖励怎么实现

Python使用re模块实现正则表达式操作指南

Python正则表达re模块之findall()函数怎么使用

怎么用python实现简易聊天对话框

Python怎么实现简易的限流器

如何使用Python实现一个简易的ORM模型

怎么用Python实现简易的音频播放器

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义