Pythonsklearn对文本数据进行特征化提取

Python sklearn文本特征提取 Python文本特征提取 Python sklearn特征提取 2023-05-17 15:05:11 104人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录文本特征提取中文分词+特征提取文本特征提取作用：对文本数据进行特征化（句子、短语、单词、字母）一般选用单词作为特征值方法一：CountVectorizer sklearn.

文本特征提取

作用：对文本数据进行特征化

（句子、短语、单词、字母）一般选用单词作为特征值

方法一：CountVectorizer

sklearn.feature_extraction.text.CountVectorizer(stop_Words=[])

返回词频矩阵(统计每个样本特征词出现的个数)

CountVectorizer.fit_transfORM(X)

X:文本或者包含文本字符串的可迭代对象

返回值：返回sparse矩阵

CountVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值：转换之前的数据格式

CountVectorizer.get_feature_names()

返回值：单词列表

代码展示：

from sklearn.feature_extraction.text import CountVectorizer
def count_demo():
    #文本特征抽取
    data=["life is short, i like like python","life is too long,i dislike Python"]
    #1、实例化一个转换器类
    transfer=CountVectorizer()
    #2、调用fit_transform()
    result=transfer.fit_transform(data)
    print("result:\n",result.toarray())
    print("特征名字:\n", transfer.get_feature_names())
    return None

方法二：TfidfVectorizer

关键词：在某一个类别的文章中，出现的次数很多，但是在其他类别的文章中出现的次数很少称为关键词

Tf-idf文本特征提取

①TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

②TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

公式

①词频（term frequency，tf）指的是某一个给定的词语在该文件中出现的频率

②逆向文档频率（inverse document frequency，idf）是一个词语普遍重要性的度量。某一特定词语的idf，可以由总文件数目除以包含该词语之文件数目，再将得到的商取以10为底的对数得到

tfidf = tf * idf

输出的结果可以理解为重要程度

api

sklearn.feature_extraction.text.TfidfVectorizer(stop_words=None,...)

返回词的权重矩阵

TfidfVectorizer.fit_transform(X)

X:文本或者包含文本字符串的可迭代对象

返回值：返回sparse矩阵

TfidfVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值：转换之前数据格式

TfidfVectorizer.get_feature_names()

返回值：单词列表

中文分词+特征提取

from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
def cut_word(text):
    #中文分词
    #jieba.cut(text)返回的是生成器对象，用list强转成列表
    word=list(jieba.cut(text))
    #转成字符串
    words=" ".join(word)
    return words
def tfidf_demo():
    data = ["今天很残酷，明天更残酷，后天会很美好，但绝大多数人都死在明天晚上，却见不到后天的太阳，所以我们干什么都要坚持",
            "注重自己的名声，努力工作、与人为善、遵守诺言，这样对你们的事业非常有帮助",
            "服务是全世界最贵的产品，所以最佳的服务就是不要服务，最好的服务就是不需要服务"]
    data_new = []
    # 将中文文本进行分词
    for sentence in data:
        data_new.append(cut_word(sentence))
    # 1、实例化一个转换器类
    transfer = TfidfVectorizer()
    # 2、调用fit_transform()
    result = transfer.fit_transform(data_new)  # 得到词频矩阵 是一个sparse矩阵
    print("result:\n", result.toarray())  # 将sparse矩阵转化为二维数组
    print("特征名字:\n", transfer.get_feature_names())
    return None

到此这篇关于Python sklearn对文本数据进行特征化提取的文章就介绍到这了,更多相关Python sklearn文本特征提取内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: Pythonsklearn对文本数据进行特征化提取

本文链接: https://lsjlt.com/news/211219.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Pythonsklearn对文本数据进行特征化提取

目录文本特征提取中文分词+特征提取文本特征提取作用：对文本数据进行特征化（句子、短语、单词、字母）一般选用单词作为特征值方法一：CountVectorizer sklearn....

99+

2023-05-17

Python sklearn文本特征提取 Python文本特征提取 Python sklearn特征提取
Python sklearn怎么对文本数据进行特征化提取

文本特征提取作用：对文本数据进行特征化（句子、短语、单词、字母）一般选用单词作为特征值方法一：CountVectorizersklearn.feature_extraction.text.CountVectorizer(stop_words...

99+

2023-05-17

Python sklearn
Python实现文本特征提取的方法详解

目录1.字典文本特征提取 DictVectorizer()1.1 one-hot编码1.2 字典数据转sparse矩阵2.英文文本特征提取3.中文文本特征提取4. TF-IDF 文本...

99+

2024-04-02
如何利用OpenCV进行特征(颜色、形状)提取

目录图像处理1. 颜色2. 形状总结图像处理图像处理所做的只是从图像中提取有用的信息，从而减少数据量，但保留描述图像特征的像素。下面从图像中提取颜色、形状和纹理特征的方法开始 1...

99+

2024-04-02
一文掌握Python实现文本特征提取的方法

本篇文章给大家带来了关于Python的相关知识，详细介绍了Python实现提取四种不同文本特征的方法，有字典文本特征提取、英文文本特征提取、中文文本特征提取和TF-IDF 文本特征提取，感兴趣的可以了解一下。【相关推荐：Python3视频教...

99+

2024-04-02
如何在Python中进行数据预处理和特征工程

如何在Python中进行数据预处理和特征工程数据预处理和特征工程是数据科学领域中非常重要的一部分。数据预处理是指对原始数据进行清洗、转换和整理，以便进一步分析和建模。而特征工程则是指从原始数据中提取有用的特征，以帮助机器学习算法更好地理解数...

99+

2023-10-22

缺失值处理数据预处理：数据规范化离群值处理特征工程：特征选择特征构建
Python从txt文件中提取特定数据

本段代码用于，想要从一段txt文件中只提取目标数据的情况。代码： def get_data(txt_path: str = '', epoch: int = 100, target: str = '...

99+

2023-09-12

python 算法 c#
Matlab利用垂距法实现提取离散坐标数据特征点

目录1.工具函数2.基础使用(二维)3.使用并修饰绘图(二维)4.三维数据垂距法是指根据中间顶点到其前、后两相邻顶点连线的距离的大小，来确定是否保留该顶点的一种线要素顶点...

99+

2024-04-02
Python进行数据提取的方法总结

准备工作首先是准备工作，导入需要使用的库，读取并创建数据表取名为loandata。 import numpy as np import pandas as pd loandata=pd.DataFr...

99+

2022-06-04

方法数据 Python
Python读取CSV文件并进行数据可视化绘图

介绍：文件 sitka_weather_07-2018_simple.csv是阿拉斯加州锡特卡2018年1月1日的天气数据，其中包含当天的最高温度和最低温度。数据文件存储与...

99+

2024-04-02
mysql数据库批量执行sql文件对数据库进行操作【windows版本】

起因：因工作需要，在本机测试环境升级mysql数据库，需逐条执行mysql数据库的sql文件对数据库进行升级，因此找了些关于mysql的文章，对批量升级数据库所需的sql文件进行升级。整理思路：首先，需要对所需升级的sql...

99+

2016-12-28

mysql数据库批量执行sql文件对数据库进行操作【windows版本】
MySQL对JSON类型字段数据进行提取和查询的实现

目录前言1. 问题现象2. 解决方案3. JSON数据查询3.1 一般基础查询操作3.2 一般函数查询操作4. JSON数据新增更新删除前言昨天上线后通过系统报警发现了一...

99+

2024-04-02
Matlab怎么利用垂距法实现提取离散坐标数据特征点

这篇文章主要介绍了Matlab怎么利用垂距法实现提取离散坐标数据特征点的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Matlab怎么利用垂距法实现提取离散坐标数据特征点文章都会有所收获，下面我们一起来看看吧。垂...

99+

2023-06-29
如何在一个HTML文件中对文本进行格式化

这篇文章主要介绍了如何在一个HTML文件中对文本进行格式化，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。<html> <...

99+

2024-04-02
Python如何读取CSV文件并进行数据可视化绘图

这篇文章主要讲解了“Python如何读取CSV文件并进行数据可视化绘图”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python如何读取CSV文件并进行数据可视化绘图”吧！介绍：文件&nbs...

99+

2023-07-02
python3 对拉勾数据进行可视化分析

　　上回说到我们如何如何把拉勾的数据抓取下来的，既然获取了数据，就别放着不动，把它拿出来分析一下，看看这些数据里面都包含了什么信息。（本次博客源码地址：https://github.com/MaxLyu/Lagou_Analyze）一、...

99+

2023-01-31

数据
python文本数据提取的方法是什么

Python文本数据提取的方法有多种，以下是一些常用的方法：1. 使用字符串方法：Python提供了很多字符串方法来提取文本数据，如...

99+

2023-09-27

python
如何对Python特定数据库管理进行说明

这篇文章将为大家详细讲解有关如何对Python特定数据库管理进行说明，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。在Python里的Python特定数据库，允许Python程序员很方便的创建...

99+

2023-06-17
怎么在Android中对SQLite数据库进行数据持久化

怎么在Android中对SQLite数据库进行数据持久化？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。SQLiteOpenHelper：创建数据库和数据库版本管理的辅助类，...

99+

2023-05-31

android 数据持久化 sqlite数据库
Go语言对JSON数据进行序列化和反序列化

golang中对json的序列化/反序列化操作还是比较容易的，序列化操作主要是通过encoding/json包的Marshal()方法来实现，反序列化操作主要是通过encoding/...

99+

2024-04-02