Python自然语言处理之切分算法详解

2024-04-02 19:04:59 717人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录一、前言二、完全切分三、正向最长匹配四、逆向最长匹配五、双向最长匹配一、前言我们需要分析某句话，就必须检测该条语句中的词语。一般来说，一句话肯定包含多个词语，它们互相重叠，具

一、前言

我们需要分析某句话，就必须检测该条语句中的词语。

一般来说，一句话肯定包含多个词语，它们互相重叠，具体输出哪一个由自然语言的切分算法决定。常用的切分算法有完全切分、正向最长匹配、逆向最长匹配以及双向最长匹配。

本篇博文将一一介绍这些常用的切分算法。

二、完全切分

完全切分是指，找出一段文本中的所有单词。

不考虑效率的话，完全切分算法其实非常简单。只要遍历文本中的连续序列，查询该序列是否在词典中即可。上一篇我们获取了词典的所有词语dic，这里我们直接用代码遍历某段文本，完全切分出所有的词语。代码如下：


from pyhaNLP import *


def load_dictionary():
    IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil')
    path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt')
    dic = IOUtil.loadDictionary([path])
    return set(dic.keySet())


def fully_segment(text, dic):
    list = []
    for i in range(len(text)):
        for j in range(i + 1, len(text) + 1):
            temp = text[i:j]
            if temp in dic:
                list.append(temp)
    return list


if __name__ == "__main__":
    dic = load_dictionary()
    print(fully_segment("在绝对实力面前，一切的说辞都是枉然", dic))

可以看到，完全切分算法输出了文本中所有的单字与词汇。
这里的算法原理是：开始遍历单个字，以该字为首，将后面每个字依次组合到单个字中，分析出这些组合字句是否在词典中。第二次，从第二个字开始，组合后面的字，以此类推。不懂的看下图就明白了。

三、正向最长匹配

虽然说完全切分能获取到所有出现在字典中的单词，单字，但是我们获取语句中单字一般来说没有任何意义，我们更希望获取的是中文分词，那种具有意义的词语序列。

比如，上面我们希望“绝对实力”成为一整个词，而不是“绝对”+“实力”之类的碎片。为了达到这个目的，我们需要完善一下我们的算法。考虑到越长的单词表达的意义更加的丰富，于是我们定义单词越长优先级越高。

具体来说，就是在某个下标为起点递增查词的过程中，优先输出更长的单词，这种规则被称为最长匹配算法。该下标的扫描顺序如果从前往后，则称为正向最长匹配，反之则为逆向最长匹配。

下面，我们来实现正向最长匹配，代码如下：


def forward_segment(text, dic):
    list = []
    i = 0
    while i < len(text):
        long_Word = text[i]
        for j in range(i + 1, len(text) + 1):
            word = text[i:j]
            if word in dic:
                if len(word) > len(long_word):
                    long_word = word
        list.append(long_word)
        i += len(long_word)
    return list

算法的原理：首先通过while循环判断i是否超出了字符串的大小，如果没有，获取当前第一个字符串为第一个最长匹配结果，接着遍历第一个字符串的所有可能组合结尾，如果在字典中，判断当前词语是否大于前面的最长匹配结果，如果是替换掉最长。遍历完成之后，将最长的结果添加到列表中，然后再获取第二字符，遍历所有结尾组合，获取最长匹配。以此类推。

四、逆向最长匹配

既然了解了正向如何匹配，那么逆向算法应该也很好写。代码如下：


def backward_segment(text, dic):
    list = []
    i = len(text) - 1
    while i >= 0:
        long_word = text[i]
        for j in range(0, i):
            word = text[j:i + 1]
            if word in dic:
                if len(word) > len(long_word):
                    long_word = word
                    break
        list.append(long_word)
        i -= len(long_word)
    return list

算法的原理：就是上面的正向反过来，但是这里并不是倒推文字，文字还是按语句的顺序，但是长度是从最长到最短，也就是遇到第一个就可以返回了添加了。比正向最长匹配算法节约时间。

五、双向最长匹配

虽然逆向比正向节约时间，但本身有一个很大的漏洞。假如我现在的句子中有一段“项目的”字符串，那么正向会出现“项目”，“的”两个词汇，而逆向会出现：“项”，“目的”两个词汇。

为此，我们的算法工程师提出了新的匹配规则，双向最长匹配。这是一种融合两种匹配方法的复杂规则，流程如下：

同时执行正向和逆向最长匹配，若两者的词数不同，则返回词数更少的一个否则，返回两者中单字更少的那一个。当单字也相同时，优先返回逆向最长匹配结果

具体代码如下：


#统计单字个数
def count_single_char(list):
    return sum(1 for word in list if len(word) == 1)

#双向匹配算法
def bidirectional_segment():
    f = forward_segment("在绝对实力面前，一切的说辞都是枉然", dic)
    b = backward_segment("在绝对实力面前，一切的说辞都是枉然", dic)
    if len(f) < len(b):
        return f
    elif len(f) > len(b):
        return b
    else:
        if count_single_char(f)<count_single_char(b):
            return f
        else:
            return b

到此这篇关于python自然语言处理之切分算法详解的文章就介绍到这了,更多相关Python切分算法内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: Python自然语言处理之切分算法详解

本文链接: https://lsjlt.com/news/124555.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python自然语言处理之切分算法详解

目录一、前言二、完全切分三、正向最长匹配四、逆向最长匹配五、双向最长匹配一、前言我们需要分析某句话，就必须检测该条语句中的词语。一般来说，一句话肯定包含多个词语，它们互相重叠，具...

99+

2024-04-02
自然语言处理遇上 Python：一个算法之旅

自然语言处理（NLP）是计算机科学的一个分支，它处理计算机如何理解和产生人类语言。Python 是一种流行的编程语言，它提供了丰富的库和工具，可以简化 NLP 任务。本文将探索 Python 中用于 NLP 的常见算法，重点关注文本分类、...

99+

2024-04-02
Python之自然语言处理库snowNLP

一、介绍 SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的类库，并且和TextBlob不同的是，这里没有...

99+

2024-01-21

自然语言处理 python
Python 自然语言处理：编程算法探究？

Python 自然语言处理：编程算法探究自然语言处理（NLP）是人工智能领域中的一个重要分支，它研究如何使计算机能够理解、处理和生成自然语言，以便更好地与人类交互。Python 是一种流行的编程语言，它在 NLP 领域中也有着重要的应用。...

99+

2023-11-14

自然语言处理编程算法学习笔记
Python自然语言处理之词干,词形与最大匹配算法代码详解

本文主要对词干提取及词形还原以及最大匹配算法进行了介绍和代码示例，Python实现，下面我们一起看看具体内容。自然语言处理中一个很重要的操作就是所谓的stemming和lemmatization，二者非常...

99+

2022-06-04

词干词形自然语言
了解自然语言处理算法的基本原理

自然语言处理(Natural Language Processing, NLP)是人工智能领域的一个重要研究方向，其目的是让计算机能够理解和处理自然语言。NLP涉及到多个领域，如计算语言学、机器学习和人工智能等。本文将介绍NLP算法的基本原...

99+

2023-08-07

编程算法自然语言处理 bash
如何学习 Python 自然语言处理编程算法？

Python 自然语言处理（Natural Language Processing，NLP）是当今人工智能领域中最火热的技术之一。Python 作为一种流行的编程语言，拥有丰富的 NLP 库和工具，可以帮助我们快速地实现自然语言处理任务。本...

99+

2023-11-14

自然语言处理编程算法学习笔记
nlp自然语言处理的算法有哪些

NLP（Natural Language Processing）自然语言处理是指计算机对人类自然语言的理解和处理的技术。以下是几个常...

99+

2023-10-09

nlp
Python编程算法：如何优雅地处理自然语言？

自然语言处理(Natural Language Processing, NLP)是人工智能领域中的一个重要研究方向，它研究如何使计算机能够理解、处理、生成人类的自然语言。在当今信息爆炸的时代，文本数据的处理和分析变得越来越重要。Pytho...

99+

2023-10-24

linux 自然语言处理编程算法
编程算法：如何利用 Python 进行自然语言处理？

Python 是一种功能强大的编程语言，它具有丰富的库和工具，可以用于自然语言处理（NLP）。自然语言处理是一种人工智能技术，用于分析、理解和生成人类语言。在本文中，我们将介绍如何使用 Python 进行自然语言处理，包括一些基本的编程算法...

99+

2023-11-14

自然语言处理编程算法学习笔记
Python编程使用NLTK进行自然语言处理详解

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。自然语言工具箱（NLTK，NaturalLanguageToolkit）是一个基于Python语言的类库，它也是当前最为流行的自然语言编程与开发工...

99+

2022-06-04

自然语言详解 Python
Python 能否解决自然语言处理难题？

自然语言处理（Natural Language Processing, NLP）是一种人工智能领域的技术，其主要目的是让计算机能够理解人类语言并以此为基础进行计算和分析。自然语言处理在人工智能领域中具有重要的地位，因为它能够让计算机更好地...

99+

2023-10-10

自然语言处理 linux spring
如何在Linux上使用Python编写自然语言处理算法？

在当今数据时代，自然语言处理（NLP）已经成为了一个热门的领域。Python作为一种强大而简单的编程语言，已经成为了许多NLP开发人员的首选语言。在本文中，我们将介绍如何在Linux上使用Python编写自然语言处理算法。一、安装Pyth...

99+

2023-10-24

linux 自然语言处理编程算法
如何利用Python编写高效的自然语言处理算法？

自然语言处理（NLP）是人工智能中最受欢迎的领域之一，它致力于让计算机能够理解和处理人类语言。Python是一种非常流行的编程语言，因其易学易用和强大的NLP库而被广泛使用。在本文中，我们将介绍如何使用Python编写高效的自然语言处理算法...

99+

2023-10-24

linux 自然语言处理编程算法
Python 自然语言处理技术能否助力 LeetCode 算法刷题？

LeetCode 是一个非常受欢迎的算法刷题网站，拥有丰富的题库，同时也是求职面试的必备技能。然而，对于许多人来说，算法挑战并不是一件容易的事情。在这篇文章中，我们将探讨如何利用 Python 自然语言处理（NLP）技术来助力 LeetC...

99+

2023-08-16

自然语言处理接口 leetcode
常用的nlp自然语言处理算法有哪些

常用的NLP自然语言处理算法有以下几种：1. 词袋模型（Bag of Words）：将文本表示为单词的集合，忽略单词的顺序和语法，只...

99+

2023-09-21

nlp
如何使用NumPy优化自然语言处理算法？

自然语言处理是人工智能领域中的一个重要分支。在处理大规模文本数据时，使用NumPy可以大大提高算法的效率，从而更好地处理自然语言。本文将介绍如何使用NumPy优化自然语言处理算法。一、NumPy简介 NumPy是Python中用于数值计算...

99+

2023-10-18

编程算法 numy 自然语言处理
Numpy如何优化自然语言处理中的算法？

Numpy是Python中一个非常重要的科学计算库，它提供了高效的数组操作和数学函数，可以大大提高自然语言处理算法的运算速度和效率。本文将介绍Numpy在自然语言处理中的应用，并演示如何使用Numpy优化算法。一、Numpy在自然语言处理...

99+

2023-06-04

numpy 自然语言处理索引
python自然语言处理之字典树知识总结

一、什么是字典树在自然语言处理中，字符串集合常用字典树存储，这是一种字符串上的树形数据结构。字典树中每条边都对应一个字，从根节点往下的路径构成一个个字符串。字典树并不直接在节点上...

99+

2024-04-02
从Linux到自然语言处理：Python的实践之路

Python是一种高级编程语言，具有易读易写、简洁明了、易于扩展等优点。它被广泛应用于数据科学、机器学习、自然语言处理等领域。本文将介绍如何从Linux到自然语言处理实践Python编程。一、Linux基础在Linux环境下，我们可以...

99+

2023-10-15

linux 自然语言处理 linux