返回顶部
首页 > 资讯 > 后端开发 > Python >python机器学习中特征工程算法的示例分析
  • 224
分享到

python机器学习中特征工程算法的示例分析

2023-06-25 14:06:42 224人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要为大家展示了“python机器学习中特征工程算法的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Python机器学习中特征工程算法的示例分析”这篇文章吧。一、机器学习概述机器

这篇文章主要为大家展示了“python机器学习中特征工程算法的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Python机器学习中特征工程算法的示例分析”这篇文章吧。

一、机器学习概述

机器学习是从数据中,自动分析获得规律(模型),并利用规律对未知数据进行预测。

二、数据集的构成

1.数据集存储

机器学习的历史数据通常使用csv文件存储。

不用mysql的原因:

文件大的话读取速度慢;

格式不符合机器学习要求的格式

2.可用的数据集

Kaggle:大数据竞赛平台、80万科学家、真实数据、数据量巨大

Kaggle网址:https://www.kaggle.com/datasets

UCI:360个数据集、覆盖科学生活经济等领域、数据量几十万

UCI数据集网址: Http://arcHive.ics.uci.edu/ml/

scikit-learn:数据量较小、方便学习

scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets

3.常用数据集的结构

特征值(用以判断目标值所用的条件:比如房子的面积朝向等)+目标值(希望实现的目标:比如房子价格)

有些数据集可以没有目标值。

三、特征工程

”将原始数据转换为能更好地代表预测模型的潜在问题的特征“的过程,叫做特征工程,能够提高对未知数据的预测准确性。特征如果不好,很可能即使算法好,结果也不会尽如人意。

pandas可用于数据读取、对数据的基本处理

sklearn有更多对于特征的处理的强大的接口

特征抽取:

特征抽取api:sklearn.feature_extraction

1.字典数据特征抽取

API:sklearn.feature_extraction.DictVectorizer

语法如下:

python机器学习中特征工程算法的示例分析

字典数据抽取:将字典中的类别数据分别进行转换为特征数据。因此,如果输入的是数组形式,并且有类别的这些特征,需要先转换成字典数据,然后进行抽取。

2.文本特征抽取

Count

类:sklearn.feature_extraction.text.CountVectorizer

用法:

python机器学习中特征工程算法的示例分析 

统计所有文章当中所有的词,重复的只看做一次
2.对每篇文章,在词的列表里面,统计每个词出现的次数
3.单个字母不统计

注意:该方法默认不支持中文,每个中文汉字被视为一个英文字母,中间有空格或者逗号就会被分开,同样的,一个汉字不予统计。(中文可使用jieba分词:pip install jieba,使用:jieba.cut("我是一个程序员"))

3.文本特征抽取:tf-idf

上面的countvec不能处理中性词比如“明天,中午,因为”等。于是可以使用tfidf方法。

tf:term frequency词频(和countvec方法一样)

idf:inverse document frequency逆文档频率 log(总文档数量/该词出现的文档数)

tf * idf 重要性程度

类:sklearn.feature_extraction.text.TfidfVectorizer

4.特征预处理:归一化

特征预处理:通过特定的统计方法,将数据转换为算法要求的数据

特征预处理API:sklearn.preprocessing

python机器学习中特征工程算法的示例分析

归一化API:sklearn.preprocessing.MinMaxScaler

python机器学习中特征工程算法的示例分析

多个特征同等重要并且特征数据之间差距较大的时候,进行归一化。但归一化容易受异常点的影响,因此该方法鲁棒性较差,只适合传统精确小数据场景。

5.特征预处理:标准化

将原始数据变换到均值为0,标准差为1的范围内

python机器学习中特征工程算法的示例分析

标准化API:

sklearn.preprocessing.StandardScaler

python机器学习中特征工程算法的示例分析

标准化适合现代嘈杂大数据场景,在已有样本足够多的情况下比较稳定。

6.特征预处理:缺失值处理

插补:通过缺失值每行或每列的平均值、中位数来填补(一般按列填补)

API:sklearn.impute.SimpleImputer

数据当中的缺失值标记:默认为np.nan

python机器学习中特征工程算法的示例分析

以上是“python机器学习中特征工程算法的示例分析”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网Python频道!

--结束END--

本文标题: python机器学习中特征工程算法的示例分析

本文链接: https://lsjlt.com/news/305533.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python机器学习中特征工程算法的示例分析
    这篇文章主要为大家展示了“python机器学习中特征工程算法的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“python机器学习中特征工程算法的示例分析”这篇文章吧。一、机器学习概述机器...
    99+
    2023-06-25
  • python机器学习基础特征工程算法详解
    目录一、机器学习概述二、数据集的构成1.数据集存储2.可用的数据集3.常用数据集的结构三、特征工程1.字典数据特征抽取2.文本特征抽取3.文本特征抽取:tf-idf4.特征预处理:归...
    99+
    2024-04-02
  • python机器学习Sklearn中adaboost算法的示例分析
    这篇文章主要为大家展示了“python机器学习Sklearn中adaboost算法的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“python机器学习Sklearn中adaboost算法...
    99+
    2023-06-21
  • Python机器学习之AdaBoost算法的示例分析
    这篇文章将为大家详细讲解有关Python机器学习之AdaBoost算法的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。一、算法概述AdaBoost 是英文 Adaptive Boosting(自适...
    99+
    2023-06-15
  • Python机器学习之PCA降维算法的示例分析
    小编给大家分享一下Python机器学习之PCA降维算法的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、算法概述主成分分析 (Principal Com...
    99+
    2023-06-15
  • Python机器学习中pandas的示例分析
    小编给大家分享一下Python机器学习中pandas的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python的五大特点是什么python的五大特点:1...
    99+
    2023-06-15
  • python机器学习算法与数据降维的示例分析
    这篇文章主要介绍python机器学习算法与数据降维的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、数据降维机器学习中的维度就是特征的数量,降维即减少特征数量。降维方式有:特征选择、主成分分析。1.特征选择...
    99+
    2023-06-25
  • Python深度学习算法实例分析
    本篇内容主要讲解“Python深度学习算法实例分析”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python深度学习算法实例分析”吧!最小二乘法所有的深度学习算法都始于下面这个数学公式(我已将其...
    99+
    2023-06-03
  • 16中Python机器学习类别特征处理方法总结
    目录Label encoding序列编码(Ordinal Encoding)独热编码(One-Hot Encoding)频数编码(Frequency Encoding/Count E...
    99+
    2024-04-02
  • python机器学习之神经网络的示例分析
    这篇文章主要介绍了python机器学习之神经网络的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言,内置了许多有效的工具...
    99+
    2023-06-14
  • Python机器学习之逻辑回归的示例分析
    这篇文章主要介绍了Python机器学习之逻辑回归的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。Python主要用来做什么Python主要应用于:1、Web开发;2、...
    99+
    2023-06-15
  • Python中算法的示例分析
    小编给大家分享一下Python中算法的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1. 算法的设计要求算法分析的主要目标是从运行时间和内存空间消耗等方面...
    99+
    2023-06-22
  • Python基于Pytorch特征图提取的示例分析
    这篇文章给大家分享的是有关Python基于Pytorch特征图提取的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。简述为了方便理解卷积神经网络的运行过程,需要对卷积神经网络的运行结果进行可视化的展示。大致...
    99+
    2023-06-29
  • python中PTD算法的示例分析
    小编给大家分享一下python中PTD算法的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1.引言1.1什么是地面点滤波?机载激光雷达(airborne ...
    99+
    2023-06-20
  • python机器学习Sklearn实战adaboost算法示例详解
    目录pandas批量处理体测成绩adaboostadaboost原理案例举例弱分类器合并成强分类器pandas批量处理体测成绩 import numpy as np import...
    99+
    2024-04-02
  • python机器学习中朴素贝叶斯算法及模型选择和调优的示例分析
    这篇文章将为大家详细讲解有关python机器学习中朴素贝叶斯算法及模型选择和调优的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。一、概率知识基础1.概率概率就是某件事情发生的可能性。2.联合概率包...
    99+
    2023-06-25
  • Python实现机器学习算法的分类
    Python算法的分类 对葡萄酒数据集进行测试,由于数据集是多分类且数据的样本分布不平衡,所以直接对数据测试,效果不理想。所以使用SMOTE过采样对数据进行处理,对数据去重,去空,处...
    99+
    2024-04-02
  • python爬虫中学习方向的示例分析
    小编给大家分享一下python爬虫中学习方向的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python主要应用领域有哪些1、云计算,典型应用OpenSt...
    99+
    2023-06-14
  • Python-OpenCV深度学习的示例分析
    这篇文章将为大家详细讲解有关Python-OpenCV深度学习的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1. 计算机视觉中的深度学习简介深度学习推动了计算机视觉领域的深刻变革,我们首先解释深...
    99+
    2023-06-22
  • Python机器学习利用随机森林对特征重要性计算评估
    目录1 前言2 随机森林(RF)简介3 特征重要性评估4 举个例子5 参考文献1 前言 随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作