返回顶部
首页 > 资讯 > 后端开发 > Python >Python文本预处理的方法是什么
  • 616
分享到

Python文本预处理的方法是什么

2023-06-16 00:06:38 616人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

本篇内容介绍了“python文本预处理的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!将文本中出现的字母转化为小写示例1:将字母转

本篇内容介绍了“python文本预处理的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

将文本中出现的字母转化为小写

示例1:将字母转化为小写

Python 实现代码:

input_str = ”The 5 biggest countries by population in 2017 are China, India, United States, Indonesia, and Brazil.”  input_strinput_str = input_str.lower()  print(input_str)

输出:

the 5 biggest countries by population in 2017 are china, india, united states, indonesia, and brazil.

删除文本中出现的数字

如果文本中的数字与文本分析无关的话,那就删除这些数字。通常,正则化表达式可以帮助你实现这一过程。

示例2:删除数字

Python 实现代码:     

import re  input_str = ’Box A contains 3 red and 5 white balls, while Box B contains 4 red and 2 blue balls.’  reresult = re.sub(r’\d+’, ‘’, input_str)  print(result)

输出:

Box A contains red and white balls, while Box B contains red and blue balls.

删除文本中出现的标点

以下示例代码演示如何删除文本中的标点符号,如 [!”#$%&&rsquo;()*+,-./:;<=>?@[\]^_`{|}~] 等符号。

示例3:删除标点

Python 实现代码:

import string  input_str = “This &is [an] example? {of} string. with.? punctuation!!!!” # Sample string  result = input_str.translate(string.maketrans(“”,””), string.punctuation)  print(result)

输出:

This is an example of string with punctuation

删除文本中出现的空格

可以通过 strip()函数移除文本前后出现的空格。

示例4:删除空格

Python 实现代码:

input_str = “ \t a string example\t “  input_strinput_str = input_str.strip()  input_str

输出:

&lsquo;a string example&rsquo;

符号化(Tokenization)

符号化是将给定的文本拆分成每个带标记的小模块的过程,其中单词、数字、标点及其他符号等都可视为是一种标记。在下表中(Tokenization sheet),罗列出用于实现符号化过程的一些常用工具

Python文本预处理的方法是什么

删除文本中出现的终止词

终止词(Stop Words) 指的是“a”,“a”,“on”,“is”,“all”等语言中最常见的词。这些词语没什么特别或重要意义,通常可以从文本中删除。一般使用 Natural Language Toolkit(NLTK) 来删除这些终止词,这是一套专门用于符号和自然语言处理统计的开源库。

示例7:删除终止词

实现代码:

input_str = “NLTK is a leading platfORM for building Python programs to work with human language data.”  stop_words = set(stopwords.words(&lsquo;english&rsquo;))  from nltk.tokenize import word_tokenize  tokens = word_tokenize(input_str)  result = [i for i in tokens if not i in stop_words]  print (result)

输出:

[&lsquo;NLTK&rsquo;, &lsquo;leading&rsquo;, &lsquo;platform&rsquo;, &lsquo;building&rsquo;, &lsquo;Python&rsquo;, &lsquo;programs&rsquo;, &lsquo;work&rsquo;, &lsquo;human&rsquo;, &lsquo;language&rsquo;, &lsquo;data&rsquo;, &lsquo;.&rsquo;]

此外,scikit-learn 也提供了一个用于处理终止词的工具:   

from sklearn.feature_extraction.stop_words import ENGLISH_STOP_WORDS

同样,spaCy 也有一个类似的处理工具:

from spacy.lang.en.stop_words import STOP_WORDS

删除文本中出现的稀疏词和特定词

在某些情况下,有必要删除文本中出现的一些稀疏术语或特定词。考虑到任何单词都可以被认为是一组终止词,因此可以通过终止词删除工具来实现这一目标。

词干提取(Stemming)

词干提取是一个将词语简化为词干、词根或词形的过程(如 books-book,looked-look)。当前主流的两种算法是 Porter stemming 算法(删除单词中删除常见的形态和拐点结尾) 和 Lancaster stemming 算法。

Python文本预处理的方法是什么

示例 8:使用 NLYK 实现词干提取

实现代码:

from nltk.stem import PorterStemmer  from nltk.tokenize import word_tokenize  stemmer= PorterStemmer()  input_str=”There are several types of stemming alGorithms.”  input_str=word_tokenize(input_str)  for word in input_str:      print(stemmer.stem(word))

输出:

There are sever type of stem algorithm.

词形还原(Lemmatization)

词形还原的目的,如词干过程,是将单词的不同形式还原到一个常见的基础形式。与词干提取过程相反,词形还原并不是简单地对单词进行切断或变形,而是通过使用词汇知识库来获得正确的单词形式。

当前常用的词形还原工具库包括: NLTK(WordNet Lemmatizer),spaCy,TextBlob,Pattern,gensim,Stanford CoreNLP,基于内存的浅层解析器(MBSP),Apache OpenNLP,Apache Lucene,文本工程通用架构(GATE),Illinois Lemmatizer 和 DKPro Core。

示例 9:使用 NLYK 实现词形还原

实现代码:   

from nltk.stem import WordNetLemmatizer  from nltk.tokenize import word_tokenize  lemmatizer=WordNetLemmatizer()  input_str=”been had done languages cities mice”  input_str=word_tokenize(input_str)  for word in input_str:      print(lemmatizer.lemmatize(word))

输出:

be have do language city mouse

词性标注(POS)

词性标注旨在基于词语的定义和上下文意义,为给定文本中的每个单词(如名词、动词、形容词和其他单词) 分配词性。当前有许多包含 POS 标记器的工具,包括 NLTK,spaCy,TextBlob,Pattern,Stanford CoreNLP,基于内存的浅层分析器(MBSP),Apache OpenNLP,Apache Lucene,文本工程通用架构(GATE),FreeLing,Illinois Part of Speech Tagger 和 DKPro Core。

示例 10:使用 TextBlob 实现词性标注

实现代码:

input_str=”Parts of speech examples: an article, to write, interesting, easily, and, of”  from textblob import TextBlob  result = TextBlob(input_str)  print(result.tags)

输出:

[(&lsquo;Parts&rsquo;, u&rsquo;NNS&rsquo;), (&lsquo;of&rsquo;, u&rsquo;IN&rsquo;), (&lsquo;speech&rsquo;, u&rsquo;NN&rsquo;), (&lsquo;examples&rsquo;, u&rsquo;NNS&rsquo;), (&lsquo;an&rsquo;, u&rsquo;DT&rsquo;), (&lsquo;article&rsquo;, u&rsquo;NN&rsquo;), (&lsquo;to&rsquo;, u&rsquo;TO&rsquo;), (&lsquo;write&rsquo;, u&rsquo;VB&rsquo;), (&lsquo;interesting&rsquo;, u&rsquo;VBG&rsquo;), (&lsquo;easily&rsquo;, u&rsquo;RB&rsquo;), (&lsquo;and&rsquo;, u&rsquo;CC&rsquo;), (&lsquo;of&rsquo;, u&rsquo;IN&rsquo;)]

词语分块(浅解析)

词语分块是一种识别句子中的组成部分(如名词、动词、形容词等),并将它们链接到具有不连续语法意义的高阶单元(如名词组或短语、动词组等) 的自然语言过程。常用的词语分块工具包括:NLTK,TreeTagger chunker,Apache OpenNLP,文本工程通用架构(GATE),FreeLing。

示例 11:使用 NLYK 实现词语分块

第一步需要确定每个单词的词性。

实现代码:

input_str=”A black television and a white stove were bought for the new apartment of John.”  from textblob import TextBlob  result = TextBlob(input_str)  print(result.tags)

输出:

[(&lsquo;A&rsquo;, u&rsquo;DT&rsquo;), (&lsquo;black&rsquo;, u&rsquo;JJ&rsquo;), (&lsquo;television&rsquo;, u&rsquo;NN&rsquo;), (&lsquo;and&rsquo;, u&rsquo;CC&rsquo;), (&lsquo;a&rsquo;, u&rsquo;DT&rsquo;), (&lsquo;white&rsquo;, u&rsquo;JJ&rsquo;), (&lsquo;stove&rsquo;, u&rsquo;NN&rsquo;), (&lsquo;were&rsquo;, u&rsquo;VBD&rsquo;), (&lsquo;bought&rsquo;, u&rsquo;VBN&rsquo;), (&lsquo;for&rsquo;, u&rsquo;IN&rsquo;), (&lsquo;the&rsquo;, u&rsquo;DT&rsquo;), (&lsquo;new&rsquo;, u&rsquo;JJ&rsquo;), (&lsquo;apartment&rsquo;, u&rsquo;NN&rsquo;), (&lsquo;of&rsquo;, u&rsquo;IN&rsquo;), (&lsquo;John&rsquo;, u&rsquo;NNP&rsquo;)]

二部就是进行词语分块

实现代码:

reg_exp = “NP: {<DT>?<JJ>*<NN>}”  rp = nltk.RegexpParser(reg_exp)  result = rp.parse(result.tags) print(result)

输出:

(S (NP A/DT black/JJ television/NN) and/CC (NP a/DT white/JJ stove/NN) were/VBD bought/VBN for/IN (NP the/DT new/JJ apartment/NN)  of/IN John/NNP)

也可以通过 result.draw() 函数绘制句子树结构图,如下图所示。   

Python文本预处理的方法是什么

命名实体识别(Named Entity Recognition)

命名实体识别(NER) 旨在从文本中找到命名实体,并将它们划分到事先预定义的类别(人员、地点、组织、时间等)。

常见的命名实体识别工具如下表所示,包括:NLTK,spaCy,文本工程通用架构(GATE) -- ANNIE,Apache OpenNLP,Stanford CoreNLP,DKPro核心,MITIE,Watson NLP,TextRazor,FreeLing 等。

Python文本预处理的方法是什么

示例 12:使用 TextBlob 实现词性标注

实现代码:

from nltk import word_tokenize, pos_tag, ne_chunk  input_str = “Bill works for Apple so he went to Boston for a conference.”  print ne_chunk(pos_tag(word_tokenize(input_str)))

输出:

(S (PERSON Bill/NNP) works/VBZ for/IN Apple/NNP so/IN he/PRP went/VBD to/TO (GPE Boston/NNP) for/IN a/DT conference/NN ./.)

共指解析 Coreference resolution(回指分辨率 anaphora resolution)

代词和其他引用表达应该与正确的个体联系起来。Coreference resolution 在文本中指的是引用真实世界中的同一个实体。如在句子 “安德鲁说他会买车”中,代词“他”指的是同一个人,即“安德鲁”。常用的 Coreference resolution 工具如下表所示,包括 Stanford CoreNLP,spaCy,Open Calais,Apache OpenNLP 等。

Python文本预处理的方法是什么

搭配提取(Collocation extraction)

搭配提取过程并不是单独、偶然发生的,它是与单词组合一同发生的过程。该过程的示例包括“打破规则 break the rules”,“空闲时间 free time”,“得出结论 draw a conclusion”,“记住 keep in mind”,“准备好 get ready”等。

Python文本预处理的方法是什么

示例 13:使用 ICE 实现搭配提取

实现代码:

input=[“he and Chazz duel with all keys on the line.”]  from ICE import CollocationExtractor extractor = CollocationExtractor.with_collocation_pipeline(“T1” , bing_key = “Temp”,pos_check = False)  print(extractor.get_collocations_of_length(input, length = 3))

输出:

[“on the line”]

关系提取(Relationship extraction)

关系提取过程是指从非结构化的数据源 (如原始文本)获取结构化的文本信息。严格来说,它确定了命名实体(如人、组织、地点的实体) 之间的关系(如配偶、就业等关系)。例如,从“昨天与 Mark 和 Emily 结婚”这句话中,我们可以提取到的信息是 Mark 是 Emily 的丈夫。 

“Python文本预处理的方法是什么”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

--结束END--

本文标题: Python文本预处理的方法是什么

本文链接: https://lsjlt.com/news/281936.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python文本预处理的方法是什么
    本篇内容介绍了“Python文本预处理的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!将文本中出现的字母转化为小写示例1:将字母转...
    99+
    2023-06-16
  • nlp预处理的方法是什么
    NLP(自然语言处理)预处理的方法有以下几种:1. 分词(Tokenization):将文本分割成词(单词)或者子词的序列。可以使用...
    99+
    2023-09-21
    nlp
  • nlp中文数据预处理方法是什么
    这篇文章主要介绍“nlp中文数据预处理方法是什么”,在日常操作中,相信很多人在nlp中文数据预处理方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”nlp中文数据预处理方法是什么”的疑惑有所帮助!接下来...
    99+
    2023-06-02
  • python优化数据预处理方法是什么
    本篇内容主要讲解“python优化数据预处理方法是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“python优化数据预处理方法是什么”吧!我们知道现实中的数据通常是杂乱无章的,需要大量的预处...
    99+
    2023-06-25
  • python处理csv文件的方法是什么
    在Python中处理CSV(逗号分隔值)文件有多种方法,以下是其中几种常用的方法:1. 使用csv模块:Python内置的csv模块...
    99+
    2023-09-15
    python
  • Python进行文件处理的方法是什么
    这篇文章主要介绍“Python进行文件处理的方法是什么”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python进行文件处理的方法是什么”文章能帮助大家解决问题。1.文件介绍python操作文件1....
    99+
    2023-07-05
  • python分割文本的方法是什么
    在Python中,有多种方法可以用来分割文本。以下是几种常用的方法:1. 使用split()函数:split()函数可以用来将文本按...
    99+
    2023-09-27
    python
  • python处理统一码文件的方法是什么
    这篇文章主要讲解了“python处理统一码文件的方法是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“python处理统一码文件的方法是什么”吧!对于自然语言处理的从业者,处理统一码文件是...
    99+
    2023-06-16
  • Java数据预统计处理的方法是什么
    Java中可以使用一些方法对数据进行预统计处理,其中常用的方法包括:1. 循环遍历:使用循环结构(如for循环、while循环)遍历...
    99+
    2023-08-24
    Java
  • Python中优雅处理JSON文件的方法是什么
    这篇文章给大家介绍Python中优雅处理JSON文件的方法是什么,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。1. 引言我们将学习如何使用Python读取、解析和编写JSON文件。我们将讨论如何最好地处理简单的JSON...
    99+
    2023-06-22
  • python读取TXT文件并处理的方法是什么
    在Python中,读取和处理TXT文件的常用方法有以下几种:1. 使用open()函数打开文件,并使用read()方法读取文件内容:...
    99+
    2023-09-25
    python
  • python的文本处理方法有哪些
    今天小编给大家分享一下python的文本处理方法有哪些的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。1、字符串常量1.1、定...
    99+
    2023-06-04
  • python文本数据提取的方法是什么
    Python文本数据提取的方法有多种,以下是一些常用的方法:1. 使用字符串方法:Python提供了很多字符串方法来提取文本数据,如...
    99+
    2023-09-27
    python
  • python导入本地文件的方法是什么
    要导入本地文件,可以使用以下方法:1. 使用`import`语句导入整个文件:```pythonimport 文件名```这将导入指...
    99+
    2023-09-20
    python
  • Python处理文本数据的方法详解
    目录前言用python处理文本数据用python处理数值型数据前言 HI,好久不见,今天是关闭朋友圈的第60天,我是野蛮成长的AC-Asteroid。 人生苦短,我用Python,通...
    99+
    2024-04-02
  • python中异常处理的方法是什么
    Python中的异常处理方法是使用`try-except`语句块来捕获和处理异常。以下是一些常见的异常处理方法:1. 使用`try-...
    99+
    2023-08-08
    python
  • Python中的异常处理方法是什么
    这篇文章主要介绍“Python中的异常处理方法是什么”,在日常操作中,相信很多人在Python中的异常处理方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python中的异常处理方法是什么”的疑惑有所...
    99+
    2023-07-06
  • Python中处理异常的方法是什么
    在Python中处理异常的方法是使用try-except语句。try块中包含可能会抛出异常的代码,而except块中包含处理异常的代...
    99+
    2024-03-12
    Python
  • Linux系统文本处理工具less的使用方法是什么
    这篇文章主要为大家分析了Linux系统文本处理工具less的使用方法是什么的相关知识点,内容详细易懂,操作细节合理,具有一定参考价值。如果感兴趣的话,不妨跟着跟随小编一起来看看,下面跟着小编一起深入学习“Linux系统文本处理工具less的...
    99+
    2023-06-28
  • C#处理文本文件的方法
    本篇内容主要讲解“C#处理文本文件的方法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“C#处理文本文件的方法”吧!用C#处理文本文件的完整源程序代码(control.cs),现在就可以方便的得到...
    99+
    2023-06-17
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作