返回顶部
首页 > 资讯 > 后端开发 > Python >SnowNLP:一个处理中文文本的 P
  • 272
分享到

SnowNLP:一个处理中文文本的 P

中文文本SnowNLP 2023-01-31 08:01:04 272人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

简介 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用

简介

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。

from snownlp import SnowNLP

s = SnowNLP(u'这个东西真心很赞')

s.Words         # [u'这个', u'东西', u'真心',
                #  u'很', u'赞']

s.tags          # [(u'这个', u'r'), (u'东西', u'n'),
                #  (u'真心', u'd'), (u'很', u'd'),
                #  (u'赞', u'Vg')]

s.sentiments    # 0.9830157237610916 positive的概率

s.pinyin        # [u'zhe', u'ge', u'dong', u'xi',
                #  u'zhen', u'xin', u'hen', u'zan']

s = SnowNLP(u'「繁體字」「繁體中文」的叫法在臺灣亦很常見。')

s.han           # u'「繁体字」「繁体中文」的叫法
                # 在台湾亦很常见。'

text = u'''
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,
所以它与语言学的研究有着密切的联系,但又有重要的区别。
自然语言处理并不是一般地研究自然语言,
而在于研制能有效地实现自然语言通信的计算机系统,
特别是其中的软件系统。因而它是计算机科学的一部分。
'''

s = SnowNLP(text)

s.keywords(3)   # [u'语言', u'自然', u'计算机']

s.summary(3)    # [u'自然语言处理是一门融语言学、计算机科学、
                #    数学于一体的科学',
                #  u'自然语言处理是计算机科学领域与人工智能
                #    领域中的一个重要方向',
                #  u'而在于研制能有效地实现自然语言通信的计
                #    算机系统']
s.sentences

s = SnowNLP([[u'这篇', u'文章'],
             [u'那篇', u'论文'],
             [u'这个']])
s.tf
s.idf
s.sim([u'文章'])# [0.3756070762985226, 0, 0]

Features

  • 中文分词(Character-Based Generative Model)
  • 词性标准(TnT 3-gram 隐马)
  • 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)
  • 文本分类(Naive Bayes)
  • 转换成拼音
  • 繁体转简体
  • 提取文本关键词(TextRank算法)
  • 提取文本摘要(TextRank算法)
  • tf,idf
  • Tokenization(分割成句子)
  • 文本相似(BM25)
  • 支持python3(感谢erning)

Get It now

$ pip install snownlp

更多信息可以浏览项目主页:SnowNLP


编辑整理:Segmentfault

--结束END--

本文标题: SnowNLP:一个处理中文文本的 P

本文链接: https://lsjlt.com/news/193143.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • SnowNLP:一个处理中文文本的 P
    简介 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用...
    99+
    2023-01-31
    中文 文本 SnowNLP
  • Java中Socket下载一个文本文件
    废话不多说了,直接给大家贴代码了,具体代码如下所示:package com.lanqiao.demo2; import java.io.BufferedInputStream; import java.io.FileInputStream;...
    99+
    2023-05-31
    socket 文本 文件
  • C#中怎么处理文本文件
    这期内容当中小编将会给大家带来有关C#中怎么处理文本文件,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。C#处理文本文件C#处理文本文件是一种常用的文件格式,所以如何处理文本文件也就成为编程的一个重点。本文...
    99+
    2023-06-18
  • 让你一文弄懂Pandas文本数据处理
    目录前言1. 文本数据类型1.1. 类型简介1.2. 类型差异2. 字符串方法2.1. 文本格式2.2. 文本对齐2.3. 计数与编码2.4. 格式判断3. 文本高级操作3.1. 文...
    99+
    2024-04-02
  • Java中怎么处理大文本文件
    今天就跟大家聊聊有关Java中怎么处理大文本文件,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。集算器与Java应用程序的集成结构如下:下面举例说明集算器协助JAVA查询大文本的基本过...
    99+
    2023-06-17
  • 使用Go语言处理中文文本
    编程并不是一个机械性的工作,而是需要有思考,有创新的工作,语法是固定的,但解决问题的思路则是依靠人的思维,这就需要我们坚持学习和更新自己的知识。今天编程网就整理分享《使用Go语言处理中文文本》,文章...
    99+
    2024-04-04
  • pandas文本处理
    1 import pandas as pd 2 import numpy as np 3 4 s = pd.Series(['A', 'b', 'c', 'bbhello', '123', np.nan, 'hj'])...
    99+
    2023-01-31
    文本 pandas
  • ubuntu中如何建立一个空文本文件
    ubuntu中建立一个空文本文件的方法:1、打开ubuntu终端;2、在命令行中输入“touch 文件名.txt”命令建立一个空文本文件即可。具体操作方法如下:在ubuntu系统桌面中使用快捷键【Ctrl+Alt+T】打开ubuntu终端命...
    99+
    2024-04-02
  • python中怎么处理文本
    这篇文章给大家介绍python中怎么处理文本,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。python处理文本使用方法我们的目的是把记录中包含January的名字列出来,符合“名字 -- 描述”格式的行为有效行。编写p...
    99+
    2023-06-17
  • C#处理文本文件的方法
    本篇内容主要讲解“C#处理文本文件的方法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“C#处理文本文件的方法”吧!用C#处理文本文件的完整源程序代码(control.cs),现在就可以方便的得到...
    99+
    2023-06-17
  • 使用Python怎么将一个文本文件拆分到多个文本文件
    使用Python怎么将一个文本文件拆分到多个文本文件?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。python可以做什么Python是一种编程语言,内置了许多有效的工具,Pyt...
    99+
    2023-06-14
  • Linux Shell文本处理
    预计更新 1: 基础知识 简介和安装 基本命令 变量和环境变量 流程控制 条件语句 循环语句 函数 文件处理 文件读写 文件权限和所有权 文件搜索和替换 网络和进程 网络通信 进程管理 信号处理...
    99+
    2023-09-17
    linux php 数据库
  • python怎么新建一个文本文档
    在Python中,您可以使用`open()`函数来创建一个新的文本文件。以下是一个示例代码,演示如何创建一个名为`example.t...
    99+
    2023-08-15
    python
  • nlp中怎么处理文本中的数字
    在自然语言处理中,处理文本中的数字通常可以采取以下几种方式:1. 去除数字:可以使用正则表达式或其他方法将文本中的数字直接去除,例如...
    99+
    2023-09-21
    nlp
  • 如何一个把任何文件转成批处理的vbs脚本Any2Bat.vbs
    这篇文章给大家分享的是有关如何一个把任何文件转成批处理的vbs脚本Any2Bat.vbs的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。用Base64编码数据,好处是压缩了大小(相对bin2str而言),缺点是增加...
    99+
    2023-06-08
  • Python处理文本文件中控制字符的方法
    控制字符 控制字符(Control Character),或者说非打印字符,出现于特定的信息文本中,表示某一控制功能的字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BS(退格)...
    99+
    2022-06-04
    文本文件 字符 方法
  • Linux下怎么处理文本文件内容中的^M
    这篇文章主要介绍了Linux下怎么处理文本文件内容中的^M,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。Windows上写好的文件,在Linux或者Unix下打开,每一行都会...
    99+
    2023-06-13
  • 如何在PHP中进行文本处理和文本挖掘?
    随着互联网和数据量的快速增长,文本处理和文本挖掘成为了计算机领域中的必要技能。PHP作为一种通用脚本语言,常被用于开发Web应用程序。不管是用于数据挖掘还是日常开发中的文本处理,PHP都是一个非常有用的工具。在本文中,我们将会介绍一些在PH...
    99+
    2023-05-21
    PHP 文本处理 文本挖掘
  • 25个值得收藏的Python文本处理案例
    目录1提取PDF内容2提取Word内容3提取Web网页内容4读取Json数据5读取CSV数据6删除字符串中的标点符号7使用NLTK删除停用词8使用TextBlob更正拼写9使用NLT...
    99+
    2024-04-02
  • GO框架中的自然语言处理:文件处理的下一个大步骤?
    自然语言处理(NLP)是人工智能领域的重要方向之一。NLP技术可以帮助机器更好地理解和处理自然语言,实现人机交互。在近年来,随着人工智能技术的发展,NLP技术已经被广泛应用于机器翻译、情感分析、文本分类等领域。而在GO框架中,自然语言处理...
    99+
    2023-08-31
    框架 文件 自然语言处理
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作