怎么在python中停用词过滤

2023-06-14 17:06:46 691人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章将为大家详细讲解有关怎么在python中停用词过滤，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。Python有哪些常用库python常用的库：1.requesuts；2.scrapy

这篇文章将为大家详细讲解有关怎么在python中停用词过滤，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。

Python有哪些常用库

python常用的库：1.requesuts；2.scrapy；3.pillow；4.twisted；5.numpy；6.matplotlib；7.pygama；8.ipyhton等。

一、什么是停用词

在汉语中，有一类没有多少意义的词语，比如组词“的”，连词“以及”、副词“甚至”，语气词“吧”，被称为停用词。一个句子去掉这些停用词，并不影响理解。所以，进行自然语言处理时，我们一般将停用词过滤掉。

而HaNLP库提供了一个小巧的停用词字典，它位于Lib\site-packages\pyhanlp\static\data\dictionary目录中，名字为：stopWords.txt。该文本收录了常见的中英文无意义的词汇，每行一个词语。示例如下：

怎么在python中停用词过滤

我们在进行自然语言处理时，可以用BinTrie、DoubleArrayTrie和AhoCorasickDoubleArrayTrie中的任意一个来存储词典。考虑到该词典中都是短语且比较多，用双数组字典树更划算，处理时间更快。

二、加载停用词字典

通过前文的介绍，我们知道了使用双数组字典树加载停用词字典更划算。下面，我们来加载其停用词，并返回键值对结构。代码如下：

def load_dictionary(path):    map=JClass('java.util.TreeMap')()    with open(path,encoding='utf-8') as src:        for word in src:            word=word.strip()            map[word]=word    return JClass('com.hankcs.hanlp.collection.trie.DoubleArrayTrie')(map)

三、删除停用词

通过上面的停用词加载，我们获取了DoubleArrayTrie树结构的词汇。如果要删除停用词，可以直接使用分词后的结果剔除停用词即可。剔除的方法如下：

def remove_stopwords(termlist,trie):    return [term.word for term in termlist if not trie.containsKey(term.word)]

四、分词以及删除停用词

在前面的博文中，我们已经学会了如何分词，现在我们又学会了如何剔除停用词。这里，我们将两者结合起来，实现分词效果。代码如下：

if __name__ == "__main__":    HanLP.Config.ShowTermNature=False    trie=load_dictionary(HanLP.Config.CoreStopWordDictionaryPath)    text="今天就这样吧！明天我们在说可以吗？"    segment=DoubleArrayTrieSegment()    termlist=segment.seg(text)    print("分词结果",termlist)    print("去掉停用词",remove_stopwords(termlist,trie))

运行之后，得到如下结果：

怎么在python中停用词过滤

五、直接删除停用词（不分词）

对应上面的结果，我们先分词在删除停用词。但是，有时候我们也喜欢先删除停用词在进行分词。下面，我们来实现直接删除停用词。

代码如下：

#直接过滤方法def direct_remove_stopwords(text,replacement,trie):    jstring=JClass('java.lang.String')    searcher=trie.getLongestSearcher(JString(text),0)    offset=0    result=''    while searcher.next():        begin=searcher.begin        end=begin+searcher.length        if begin>offset:            result+=text[offset:begin]            result+=replacement            offset=end    if offset<len(text):        result+=text[offset:]    return resultif __name__ == "__main__":    HanLP.Config.ShowTermNature = False    trie = load_dictionary(HanLP.Config.CoreStopWordDictionaryPath)    text = "今天就这样吧！明天我们在说可以吗？"    segment = DoubleArrayTrieSegment()    termlist = segment.seg(text)    print("分词结果", termlist)    print("去掉停用词", remove_stopwords(termlist, trie))    print("不分词去掉停用词", direct_remove_stopwords(text, "**", trie))

运行之后，效果如下：

怎么在python中停用词过滤

关于怎么在python中停用词过滤就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

您可能感兴趣的文档:

--结束END--

本文标题: 怎么在python中停用词过滤

本文链接: https://lsjlt.com/news/274067.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

怎么在python中停用词过滤

这篇文章将为大家详细讲解有关怎么在python中停用词过滤，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。python有哪些常用库python常用的库：1.requesuts；2.scrapy...

99+

2023-06-14
python基础之停用词过滤详解

目录一、什么是停用词二、加载停用词字典三、删除停用词四、分词以及删除停用词五、直接删除停用词（不分词）一、什么是停用词在汉语中，有一类没有多少意义的词语，比如组词“的”，连词“以及...

99+

2024-04-02
怎么在Java中使用DFA算法过滤敏感词

怎么在Java中使用DFA算法过滤敏感词？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。具体实现： 1、匹配大小写过滤 2、匹配全角半角过滤 3...

99+

2023-05-30

java dfa
php怎么过滤违禁词

这篇文章主要讲解了“php怎么过滤违禁词”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“php怎么过滤违禁词”吧！什么是违禁词？违禁词是指在网站或应用程序中，用户不能使用的词语或敏感词汇。这些...

99+

2023-07-05
如何在java中使用DFA算法过滤敏感词

如何在java中使用DFA算法过滤敏感词？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。敏感词过滤的做法有很多，我简单描述我现在理解的几种：①查询数据库当中的敏感词，循环每一...

99+

2023-05-31

java ava dfa算法
Java怎么使用DFA算法实现敏感词过滤

本篇内容主要讲解“Java怎么使用DFA算法实现敏感词过滤”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Java怎么使用DFA算法实现敏感词过滤”吧!1 前言敏感词过滤就是你在项目中输入某些字（...

99+

2023-07-05
Python基于DFA算法怎么实现内容敏感词过滤

这篇文章主要讲解了“Python基于DFA算法怎么实现内容敏感词过滤”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python基于DFA算法怎么实现内容敏感词过滤”吧！DFA 算法是通过提前...

99+

2023-06-30
vue过滤器在v2.0版本中怎么用

这篇文章主要为大家展示了“vue过滤器在v2.0版本中怎么用”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“vue过滤器在v2.0版本中怎么用”这篇文章吧。1.x...

99+

2024-04-02
怎么在java中使用Filter实现过滤

今天就跟大家聊聊有关怎么在java中使用Filter实现过滤，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。Java是什么Java是一门面向对象编程语言，可以编写桌面应用程序、Web应...

99+

2023-06-14
vue.js中过滤器怎么用

这篇文章给大家分享的是有关vue.js中过滤器怎么用的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。前言大家再使用vue做项目时，查询功能当然必不可少，这就得使用vue强大的fil...

99+

2024-04-02
Vue中过滤器怎么用

这篇文章主要为大家展示了“Vue中过滤器怎么用”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Vue中过滤器怎么用”这篇文章吧。前言最近在项目的开发中，出现一些格...

99+

2024-04-02
PHP中怎么使用Ajax判断是否有敏感词汇并过滤

这篇文章给大家介绍PHP中怎么使用Ajax判断是否有敏感词汇并过滤，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。敏感词汇数组sensitive.phpreturn array ( &nbs...

99+

2023-06-04
filter过滤器怎么在Java项目中使用

这篇文章将为大家详细讲解有关filter过滤器怎么在Java项目中使用，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。Filter过滤器技术。通过过滤器，可以对来自客户端的请求进行拦截，进行预...

99+

2023-05-31

java ava filter
Python协同过滤算法怎么用

本篇内容介绍了“Python协同过滤算法怎么用”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！一、数据准备L...

99+

2024-04-02
vue中过滤器filter怎么用

这篇文章主要为大家展示了“vue中过滤器filter怎么用”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“vue中过滤器filter怎么用”这篇文章吧。示例<...

99+

2024-04-02
Vue中过滤器怎么使用

这篇文章主要讲解了“Vue中过滤器怎么使用”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Vue中过滤器怎么使用”吧！过滤器其本质其实就是函数，作用在于用户输入数据用户，能够进行处理，并且返回...

99+

2023-06-03
Python中怎么过滤字符串列表

今天就跟大家聊聊有关Python中怎么过滤字符串列表，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。使用另一个列表过滤字符串列表本示例说明了如何在不使用任何方法的情况下过滤字符串列表中...

99+

2023-06-16
怎么在JavaScript中使用filter过滤数组元素

怎么在JavaScript中使用filter过滤数组元素？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。JavaScript可以做什么1.可以使网页具有交互性，例如响应用户点...

99+

2023-06-14
怎么在Python中利用Spacy进行分词

本篇文章给大家分享的是有关怎么在Python中利用Spacy进行分词，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。python是什么意思Python是一种跨平台的、具有解释性、...

99+

2023-06-14
springboot中怎么使用过滤器以及jsoup过滤XSS脚本怎么写

springboot中怎么使用过滤器以及jsoup过滤XSS脚本怎么写，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。springboot使用过滤器,jsoup过滤XSS脚本背景...

99+

2023-06-22