返回顶部
首页 > 资讯 > 后端开发 > Python >python三种数据标准化
  • 312
分享到

python三种数据标准化

python 2023-09-25 12:09:06 312人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

数据变换是数据准备的重要环节,它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。常见的变换方法: 1.数据平滑:去除数据中的噪声,将连续数据离散化。这里可以采用分箱、聚

数据变换是数据准备的重要环节,它通过数据平滑数据聚集数据概化规范化等方式将数据转换成适用于数据挖掘的形式。常见的变换方法:
1.数据平滑:去除数据中的噪声,将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑
2.数据聚集:对数据进行汇总,在sql中有一些聚集函数可以供我们操作(比如Max)反馈某个字段的数值最大值,Sum返回某个字段的数值总和;
3.数据概化:将数据由较低的概念抽象成为较高的概念,减少数据复杂度,即用更高的概念替代更低的概念。比如说上海、杭州、深圳、北京可以概化为中国。
4.数据规范化:使属性数据按比例缩放,这样就将原来的数值映射到一个新的特定区域中。常用的方法有最小一最大规范化、Z-score规范化、按小数定标规范化等;
5.属性构造:构造出新的属性并添加到属性集中。这里会用到特征工程的知识,因为通过属性与属性的连接构造新的属性,其实就是特征工程。比如说,数据表中统计每个人的英语、语文和数学成绩,你可以构造一个“总和“这个属性,来作为新属性。这样“总和这个属性就可以用到后续的数据挖掘计算中。
在这些变换方法中,最简单易用的就是对数据进行规范化处理。下面我来给你讲下如何对数据进行规范化处理。

1、Min-max 归一化

Min-max规范化方法是将原始数据变换到[0,1]的空间中。用公式表示就是:
新数值=(原数值-极小值)/(极大值-极小值)。

2、Z-Score标准化

我们定义:新数值=(原数值一均值)/标准差。

3、小数定标规范化

小数定标规范化就是通过移动小数点的位置来进行规范化。小数点移动多少位取决于属性A的取值中的最大绝对值。
举个例子,比如属性A的取值范围是-999到88,那么最大绝对值为999,小数点就会移动3位,即新数值=原数值/1000。那么A的取值范围就被规范化为-0.999到0.088。

python的SciKit-Learn库使用
1、Min-max 规范化

from sklearn import preprocessing import numpy as np#初始化数据,每一行表示一个样本,每一列表示一个特征x=np.array([[0.,-3.,1.],            [3.,1.,2.],            [0.,1.,-1.]])#将数据进行[0,1]规范化min_max_scaler=preprocessing.MinMaxScaler()minmax_x=min_max_scaler.fit_transfORM(x)print (minmax_x)

Z-Score规范化

from sklearn import preprocessing import numpy as np#初始化数据x=np.array([[0.,-3.,1.],            [3.,1.,2.],            [0.,1.,-1.]])#将数据进行Z-Score规范化scaled_x=preprocessing.scale(x)print (scaled_x)

小数定标规范化

from sklearn import preprocessing import numpy as np#初始化数据x=np.array([[0.,-3.,1.],            [3.,1.,2.],            [0.,1.,-1.]])#小数定标规范化j=np.ceil(np.log10(np.max(abs(x)))scaled_x=X/(10**j)print (scaled_x)

4、归一化和标准化的区别和联系

区别:
归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[a,b]区间内,仅由变量的极值决定,因此区间放缩法是归一化的一种。
标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,转换为标准正态分布,和整体样本分布相关,每个样本点都能对标准化产生影响。
归一化会改变数据的原始距离,分布,信息;
标准化一般不会。

联系:
它们的相同点在于都能取消由于量纲不同引起的误差;都是一种线性变换,都是对向量X按照比例压缩再进行平移。

5、使用情形:

什么时候用归一化?什么时候用标准化?
(1)如果对输出结果范围有要求,用归一化。
(2)如果数据较为稳定,不存在极端的最大最小值,用归一化。
(3)如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。

6、哪些模型必须归一化/标准化?

①SVM ②KNN ③神经网络 ④PCA等

来源地址:https://blog.csdn.net/u012121721/article/details/131793474

--结束END--

本文标题: python三种数据标准化

本文链接: https://lsjlt.com/news/417377.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python三种数据标准化
    数据变换是数据准备的重要环节,它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。常见的变换方法: 1.数据平滑:去除数据中的噪声,将连续数据离散化。这里可以采用分箱、聚...
    99+
    2023-09-25
    python
  • Python数据标准化
    目录 一.数据标准化方式 1.实现中心化和正态分布的Z-Score 2.实现归一化的Max-Min 3.用于稀疏数据的MaxAbs 4.针对离群点的RobustScaler 二.Python针对以上几种标准化方法处理数据 三.总结   ...
    99+
    2023-09-10
    python sklearn
  • Python数据标准化的实例分析
    说明 将原始数据转换为均值为0,标准差在1范围内。 对标准化而言:如果出现异常点,由于有一定数据量,少量异常点对平均值的影响不大,因此方差变化不大。 实例 def stand_demo(): """ ...
    99+
    2022-06-02
    Python 数据标准化
  • python实现z-score标准化和0-1标准化
    目录 标准化处理 0-1标准化: z-score标准化: 1、用自带的函数来操作 实现z-score标准化 实现0-1标准化 2、自定义函数实现 实现z-score标准化 实现0-1标准化 标准化处理 0-1标准化: 对输出结果范围有要...
    99+
    2023-09-07
    python 机器学习 深度学习 数据分析
  • Python标准数据类型-Number(数字)
    ✅作者简介:CSDN内容合伙人、阿里云专家博主、51CTO专家博主、新星计划第三季python赛道Top1 📃个人主页:hacker707的csdn博客 🔥系列专栏...
    99+
    2023-09-10
    python 数据类型
  • Python标准库之数据库 sqlite3
    目录1、创建数据库 2、插入数据3、查询4、更新与删除Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配P...
    99+
    2024-04-02
  • Python标准库14 数据库 (sqlite3)
    Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配Python建网站,或者制作有数据存储需求的工具。SQLite还在其它领域有广泛的应用,比如HTML5和移动端。Python...
    99+
    2023-06-02
  • Python标准数据类型-List(列表)
    ✅作者简介:CSDN内容合伙人、阿里云专家博主、51CTO专家博主、新星计划第三季python赛道Top1🏆 📃个人主页:hacker707的csdn博客 ...
    99+
    2023-09-10
    python list pycharm 原力计划
  • Python3中六种标准数据类型的简单
    作者:心叶时间:2018-04-21 09:28 Python 中的变量不需要声明。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。 Python3 中有六个标准的数据类型:Number(数字) + String(字符串) + ...
    99+
    2023-01-31
    六种 数据类型 简单
  • Python3 常用数据标准化方法详解
    数据标准化是机器学习、数据挖掘中常用的一种方法。包括我自己在做深度学习方面的研究时,数据标准化是最基本的一个步骤。 数据标准化主要是应对特征向量中数据很分散的情况,防止小数据被大数据...
    99+
    2024-04-02
  • Python3实现常用数据标准化方法
    数据标准化是机器学习、数据挖掘中常用的一种方法。包括我自己在做深度学习方面的研究时,数据标准化是最基本的一个步骤。数据标准化主要是应对特征向量中数据很分散的情况,防止小数据被大数据(绝对值)吞并的情况。另外,数据标准化也有加速训练...
    99+
    2023-01-31
    常用 方法 数据
  • Java中的三种标准注解和四种元注解说明
    目录Java的三种标准注解和四种元注解先来说说什么是注解Java内置了三种注解,定义在java.lang中的注解Java除了内置了三种标准注解,还有四种元注解元注解和自己写一个注解一...
    99+
    2024-04-02
  • r语言-如何将数据标准化和中心化
    中心化和标准化意义一样,都是消除量纲的影响 中心化:数据-均值 标准化:(数据-均值)/标准差 数据中心化: scale(data,center=T,scale=F) 数据标准化: ...
    99+
    2024-04-02
  • Python标准数据类型-String(字符串)
    ✅作者简介:CSDN内容合伙人、阿里云专家博主、51CTO专家博主、新星计划第三季python赛道Top1 📃个人主页:hacker707的csdn博客 🔥系列专栏...
    99+
    2023-09-03
    python 字符串 原力计划
  • Python学习 :六个标准数据类型
    一、Numbers(数字类型) 数字类型主要分为两种—— 整数(Integer)与 浮点数(Float) 整数分为整型和长整型(在Python3中已经不再区分为整型与长整型,统一称为整型) 注意:数字类型是不可变的数据类型       ...
    99+
    2023-01-30
    数据类型 标准 Python
  • Python机器学习入门(三)之Python数据准备
    目录1.数据预处理1.1调整数据尺度1.2正态化数据1.3标准化数据1.4二值数据2.数据特征选定2.1单变量特征选定2.2递归特征消除2.3数据降维2.4特征重要性总结特征选择时困...
    99+
    2024-04-02
  • Java中的三种标准注解和四种元注解是什么
    这篇“Java中的三种标准注解和四种元注解是什么”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Java中的三种标准注解和四种...
    99+
    2023-06-29
  • 简单了解标准SQL的update语句三种用法
    一、环境: MySQL-5.0.41-win32 Windows XP professional 二、建立测试环境: DROP TABLE IF EXISTS t_test; CREATE T...
    99+
    2024-04-02
  • 100天精通Python(数据分析篇)——第75天:Pandas数据预处理之数据标准化
    文章目录 专栏导读 1. 数据标准化是什么? 2. 数据标准化的作用 3. 数据标准化的方法 4. 离差标准化 5. 标准差标准化 6. 小数定标标准化 书籍介绍 ...
    99+
    2023-10-07
    python pandas 数据分析 数据标准化
  • python五大标准数据类型的介绍
    这篇文章主要介绍“python五大标准数据类型的介绍”,在日常操作中,相信很多人在python五大标准数据类型的介绍问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python五大标准数据类型的介绍”的疑惑有所...
    99+
    2023-06-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作