返回顶部
首页 > 资讯 > 后端开发 > Python >python机器学习基础特征工程算法详解
  • 820
分享到

python机器学习基础特征工程算法详解

2024-04-02 19:04:59 820人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录一、机器学习概述二、数据集的构成1.数据集存储2.可用的数据集3.常用数据集的结构三、特征工程1.字典数据特征抽取2.文本特征抽取3.文本特征抽取:tf-idf4.特征预处理:归

一、机器学习概述

机器学习是从数据中,自动分析获得规律(模型),并利用规律对未知数据进行预测。

二、数据集的构成

1.数据集存储

机器学习的历史数据通常使用csv文件存储。

不用Mysql的原因:

1、文件大的话读取速度慢;

2、格式不符合机器学习要求的格式

2.可用的数据集

Kaggle:大数据竞赛平台、80万科学家、真实数据、数据量巨大

Kaggle网址:https://www.kaggle.com/datasets

UCI:360个数据集、覆盖科学生活经济等领域、数据量几十万

UCI数据集网址: Http://arcHive.ics.uci.edu/ml/

scikit-learn:数据量较小、方便学习

scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets

3.常用数据集的结构

特征值(用以判断目标值所用的条件:比如房子的面积朝向等)+目标值(希望实现的目标:比如房子价格)

有些数据集可以没有目标值。

三、特征工程

”将原始数据转换为能更好地代表预测模型的潜在问题的特征“的过程,叫做特征工程,能够提高对未知数据的预测准确性。特征如果不好,很可能即使算法好,结果也不会尽如人意。

pandas可用于数据读取、对数据的基本处理

sklearn有更多对于特征的处理的强大的接口

特征抽取:

特征抽取api:sklearn.feature_extraction

1.字典数据特征抽取

API:sklearn.feature_extraction.DictVectorizer

语法如下:

字典数据抽取:将字典中的类别数据分别进行转换为特征数据。因此,如果输入的是数组形式,并且有类别的这些特征,需要先转换成字典数据,然后进行抽取。

2.文本特征抽取

Count

类:sklearn.feature_extraction.text.CountVectorizer

用法:

 

1.统计所有文章当中所有的词,重复的只看做一次
2.对每篇文章,在词的列表里面,统计每个词出现的次数
3.单个字母不统计

注意:该方法默认不支持中文,每个中文汉字被视为一个英文字母,中间有空格或者逗号就会被分开,同样的,一个汉字不予统计。(中文可使用jieba分词:pip install jieba,使用:jieba.cut("我是一个程序员"))

3.文本特征抽取:tf-idf

上面的countvec不能处理中性词比如“明天,中午,因为”等。于是可以使用tfidf方法。

tf:term frequency词频(和countvec方法一样)

idf:inverse document frequency逆文档频率 log(总文档数量/该词出现的文档数)

tf * idf 重要性程度

类:sklearn.feature_extraction.text.TfidfVectorizer

4.特征预处理:归一化

特征预处理:通过特定的统计方法,将数据转换为算法要求的数据

特征预处理API:sklearn.preprocessing

归一化API:sklearn.preprocessing.MinMaxScaler

多个特征同等重要并且特征数据之间差距较大的时候,进行归一化。但归一化容易受异常点的影响,因此该方法鲁棒性较差,只适合传统精确小数据场景。

5.特征预处理:标准化

将原始数据变换到均值为0,标准差为1的范围内

标准化API:

sklearn.preprocessing.StandardScaler

标准化适合现代嘈杂大数据场景,在已有样本足够多的情况下比较稳定。

6.特征预处理:缺失值处理

插补:通过缺失值每行或每列的平均值、中位数来填补(一般按列填补)

API:sklearn.impute.SimpleImputer

数据当中的缺失值标记:默认为np.nan

以上就是python机器学习基础特征工程算法详解的详细内容,更多关于Python机器学习特征工程的资料请关注编程网其它相关文章!

--结束END--

本文标题: python机器学习基础特征工程算法详解

本文链接: https://lsjlt.com/news/157213.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python机器学习基础特征工程算法详解
    目录一、机器学习概述二、数据集的构成1.数据集存储2.可用的数据集3.常用数据集的结构三、特征工程1.字典数据特征抽取2.文本特征抽取3.文本特征抽取:tf-idf4.特征预处理:归...
    99+
    2024-04-02
  • python基础学习之 特征工程
      一、特征提取  字典加载特征:DictVectorizer  文本特征提取:词频向量(CountVectorizer)TF-IDF向量(TfidfVectorizer,FfidfTransformer) 特征哈希向量(HashingVe...
    99+
    2023-06-02
  • python机器学习中特征工程算法的示例分析
    这篇文章主要为大家展示了“python机器学习中特征工程算法的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“python机器学习中特征工程算法的示例分析”这篇文章吧。一、机器学习概述机器...
    99+
    2023-06-25
  • python机器学习基础K近邻算法详解KNN
    目录一、k-近邻算法原理及API1.k-近邻算法原理2.k-近邻算法API3.k-近邻算法特点二、k-近邻算法案例分析案例信息概述第一部分:处理数据1.数据量缩小2.处理时间3.进一...
    99+
    2024-04-02
  • Python机器学习之Kmeans基础算法
    一、K-means基础算法简介 k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于,聚类过程为无...
    99+
    2022-06-02
    Python Kmeans基础算法 python机器学习 python Kmeans
  • python机器学习基础线性回归与岭回归算法详解
    目录一、什么是线性回归1.线性回归简述2.数组和矩阵数组矩阵3.线性回归的算法二、权重的求解1.正规方程2.梯度下降三、线性回归案例1.案例概述2.数据获取3.数据分割4.数据标准化...
    99+
    2024-04-02
  • Python常用算法学习基础教程
    本节内容 算法定义 时间复杂度 空间复杂度 常用算法实例 1.算法定义 算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制...
    99+
    2022-06-04
    算法 基础教程 常用
  • Python基础学习之反射机制详解
    目录什么是反射应用场景基本小栗子贴近实际应用的小场景什么是反射 在Python中,反射是指通过一组内置的函数和语句,在运行时动态地访问、检查和修改对象的属性、方法和类信息的机制。Py...
    99+
    2023-03-22
    Python反射机制 Python反射
  • python机器学习pytorch 张量基础教程
    目录正文1.初始化张量1.1 直接从列表数据初始化1.2 用 NumPy 数组初始化1.3 从另一个张量初始化1.4 使用随机值或常量值初始化2.张量的属性3.张量运算3.1 标准的...
    99+
    2024-04-02
  • Python机器学习之PCA降维算法详解
    目录一、算法概述二、算法步骤三、相关概念四、算法优缺点五、算法实现六、算法优化一、算法概述 主成分分析 (Principal ComponentAnalysis,PCA)是一种掌握事物主要矛盾的统计分析方法...
    99+
    2022-06-02
    Python PCA降维算法 python机器学习
  • Python机器学习之基础概述
    目录一、基础概述二、算法分类三、研究内容一、基础概述 机器学习(Machine Learing)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多...
    99+
    2024-04-02
  • 16中Python机器学习类别特征处理方法总结
    目录Label encoding序列编码(Ordinal Encoding)独热编码(One-Hot Encoding)频数编码(Frequency Encoding/Count E...
    99+
    2024-04-02
  • Python机器学习利用随机森林对特征重要性计算评估
    目录1 前言2 随机森林(RF)简介3 特征重要性评估4 举个例子5 参考文献1 前言 随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人...
    99+
    2024-04-02
  • Python学习之12个常用基础语法详解
    目录前言1.多个字符串组合为一个字符串2.字符串拆分为子字符串列表3.统计列表中元素的次数4.使用try-except-else-block模块5.使用枚举函数得到key/value...
    99+
    2024-04-02
  • kotlin 官方学习教程之基础语法详解
    kotlin 官方学习教程之基础语法详解Google 在今天的举行了 I/O 大会,大会主要主要展示内有容 Android O(Android 8.0)系统、Google Assistant 语音助手、Google 智能音箱、人工智能、机器...
    99+
    2023-05-31
    kotlin 教程
  • Python基础学习:try...except...的详细用法
    我们把可能发生错误的语句放在try模块里,用except来处理异常。except可以处理一个专门的异常,也可以处理一组圆括号中的异常,如果except后没有指定异常,则默认处理所有的异常。每一个try...
    99+
    2023-09-22
    python 学习 开发语言
  • python机器学习Sklearn实战adaboost算法示例详解
    目录pandas批量处理体测成绩adaboostadaboost原理案例举例弱分类器合并成强分类器pandas批量处理体测成绩 import numpy as np import...
    99+
    2024-04-02
  • Java基础学习之构造方法详解
    目录一、构造方法概述二、构造方法的注意事项三、标准类制作一、构造方法概述 构造方法是一种特殊的方法 作用:创建对象Student stu = new Student(); 格式: p...
    99+
    2024-04-02
  • Python机器学习之AdaBoost算法
    目录一、算法概述二、算法原理三、算法步骤四、算法实现五、算法优化一、算法概述 AdaBoost 是英文 Adaptive Boosting(自适应增强)的缩写,由 Yoav Freund 和Robert S...
    99+
    2022-06-02
    Python AdaBoost算法 Python机器学习
  • Python基础-特殊方法整理详解
    目录1、概述2、常用特殊方法及实现2.1 _len__()2.2 __str__()2.3 __iter__()2.4 __getitem__()2.5 __new__()2.6 使...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作