312

分享到

python三种数据标准化

python 2023-09-25 12:09:06 312人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

数据变换是数据准备的重要环节，它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。常见的变换方法： 1.数据平滑：去除数据中的噪声，将连续数据离散化。这里可以采用分箱、聚

数据变换是数据准备的重要环节，它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。常见的变换方法：
1.数据平滑：去除数据中的噪声，将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑
2.数据聚集：对数据进行汇总，在sql中有一些聚集函数可以供我们操作（比如Max）反馈某个字段的数值最大值，Sum返回某个字段的数值总和；
3.数据概化：将数据由较低的概念抽象成为较高的概念，减少数据复杂度，即用更高的概念替代更低的概念。比如说上海、杭州、深圳、北京可以概化为中国。
4.数据规范化：使属性数据按比例缩放，这样就将原来的数值映射到一个新的特定区域中。常用的方法有最小一最大规范化、Z-score规范化、按小数定标规范化等；
5.属性构造：构造出新的属性并添加到属性集中。这里会用到特征工程的知识，因为通过属性与属性的连接构造新的属性，其实就是特征工程。比如说，数据表中统计每个人的英语、语文和数学成绩，你可以构造一个“总和“这个属性，来作为新属性。这样“总和这个属性就可以用到后续的数据挖掘计算中。
在这些变换方法中，最简单易用的就是对数据进行规范化处理。下面我来给你讲下如何对数据进行规范化处理。

1、Min-max 归一化

Min-max规范化方法是将原始数据变换到[0，1]的空间中。用公式表示就是：
新数值=（原数值-极小值）/（极大值-极小值）。

2、Z-Score标准化

我们定义：新数值=（原数值一均值）/标准差。

3、小数定标规范化

小数定标规范化就是通过移动小数点的位置来进行规范化。小数点移动多少位取决于属性A的取值中的最大绝对值。
举个例子，比如属性A的取值范围是-999到88，那么最大绝对值为999，小数点就会移动3位，即新数值=原数值/1000。那么A的取值范围就被规范化为-0.999到0.088。

python的SciKit-Learn库使用
1、Min-max 规范化

from sklearn import preprocessing import numpy as np#初始化数据，每一行表示一个样本，每一列表示一个特征x=np.array([[0.,-3.,1.],            [3.,1.,2.],            [0.,1.,-1.]])#将数据进行[0，1]规范化min_max_scaler=preprocessing.MinMaxScaler()minmax_x=min_max_scaler.fit_transfORM（x）print (minmax_x)

Z-Score规范化

from sklearn import preprocessing import numpy as np#初始化数据x=np.array([[0.,-3.,1.],            [3.,1.,2.],            [0.,1.,-1.]])#将数据进行Z-Score规范化scaled_x=preprocessing.scale(x)print (scaled_x)

小数定标规范化

from sklearn import preprocessing import numpy as np#初始化数据x=np.array([[0.,-3.,1.],            [3.,1.,2.],            [0.,1.,-1.]])#小数定标规范化j=np.ceil(np.log10(np.max(abs(x)))scaled_x=X/(10**j)print (scaled_x)

4、归一化和标准化的区别和联系

区别：
归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[a,b]区间内，仅由变量的极值决定，因此区间放缩法是归一化的一种。
标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，转换为标准正态分布，和整体样本分布相关，每个样本点都能对标准化产生影响。
归一化会改变数据的原始距离，分布，信息；
标准化一般不会。

联系：
它们的相同点在于都能取消由于量纲不同引起的误差；都是一种线性变换，都是对向量X按照比例压缩再进行平移。

5、使用情形：

什么时候用归一化？什么时候用标准化？
（1）如果对输出结果范围有要求，用归一化。
（2）如果数据较为稳定，不存在极端的最大最小值，用归一化。
（3）如果数据存在异常值和较多噪音，用标准化，可以间接通过中心化避免异常值和极端值的影响。

6、哪些模型必须归一化/标准化？

①SVM ②KNN ③神经网络 ④PCA等

来源地址：https://blog.csdn.net/u012121721/article/details/131793474

您可能感兴趣的文档:

--结束END--

本文标题: python三种数据标准化

本文链接: https://lsjlt.com/news/417377.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

python三种数据标准化

1、Min-max 归一化

2、Z-Score标准化

3、小数定标规范化

4、归一化和标准化的区别和联系

5、使用情形：

6、哪些模型必须归一化/标准化？

python三种数据标准化

Python数据标准化

Python数据标准化的实例分析

python实现z-score标准化和0-1标准化

Python标准数据类型-Number(数字)

Python标准库之数据库 sqlite3

Python标准库14 数据库 (sqlite3)

Python标准数据类型-List(列表)

Python3中六种标准数据类型的简单

Python3 常用数据标准化方法详解

Python3实现常用数据标准化方法

Java中的三种标准注解和四种元注解说明

r语言-如何将数据标准化和中心化

Python标准数据类型-String(字符串)

Python学习：六个标准数据类型

Python机器学习入门(三)之Python数据准备

Java中的三种标准注解和四种元注解是什么

简单了解标准SQL的update语句三种用法

100天精通Python（数据分析篇）——第75天：Pandas数据预处理之数据标准化

python五大标准数据类型的介绍

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义