Python之sklearn数据预处理中fit(),transform()与fit_transform()的区别

Python sklearn数据预处理 Python中fit()Python中transform()Python中fit_transform() 2023-02-01 15:02:36 793人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

目录sklearn数据预处理中fit(),transfORM()与fit_transform()的区别概述举例sklearn中归一化的坑原因总结sklearn数据预处理中

sklearn数据预处理中fit(),transform()与fit_transform()的区别

概述

注意这是数据预处理中的方法：

Fit(): Method calculates the parameters μ and σ and saves them as internal objects.

解释：简单来说，就是求得训练集X的均值啊，方差啊，最大值啊，最小值啊这些训练集X固有的属性。可以理解为一个训练过程

Transform(): Method using these calculated parameters apply the transformation to a particular dataset.

解释：在Fit的基础上，进行标准化，降维，归一化等操作（看具体用的是哪个工具，如PCA，StandardScaler等）。

Fit_transform(): joins the fit() and transform() method for transformation of dataset.

解释：

fit_transform是fit和transform的组合，既包括了训练又包含了转换。
transform()和fit_transform()二者的功能都是对数据进行某种统一处理（比如标准化~N(0,1)，将数据缩放(映射)到某个固定区间，归一化，正则化等）
fit_transform(trainData)对部分数据先拟合fit，找到该part的整体指标，如均值、方差、最大值最小值等等（根据具体转换的目的），然后对该trainData进行转换transform，从而实现数据的标准化、归一化等等。

根据对之前部分trainData进行fit的整体指标，对剩余的数据（testData）使用同样的均值、方差、最大最小值等指标进行转换transform(testData)，从而保证train、test处理方式相同。

所以，一般都是这么用：

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit_tranform(X_train)
sc.tranform(X_test)

Note:

必须先用fit_transform(trainData)，之后再transform(testData)
如果直接transform(testData)，程序会报错
如果fit_transfrom(trainData)后，使用fit_transform(testData)而不transform(testData)，虽然也能归一化，但是两个结果不是在同一个“标准”下的，具有明显差异。(一定要避免这种情况)

举例

以PCA预处理，举个栗子：

import pandas as pd
import numpy as np
 
from sklearn.decomposition import PCA 
 
#==========================================================================================
X1=pd.DataFrame(np.arange(9).reshape((3,3)),index=['a','b','c'],
              columns=['one','two','three'])  
 
pca=PCA(n_components=1)
 
newData1=pca.fit_transform(X1)
 
pca.fit(X1)
newData12=pca.transform(X1)
 
"""
newData1和newData2结果一致
"""
#==========================================================================================
a=[[1,2,3],[5,6,7],[4,5,8]]
 
X2=pd.DataFrame(np.array(a),index=['a','b','c'],
              columns=['one','two','three'])  
pca_new=PCA(n_components=1)
pca_new.transform(X2)
"""
没有fit，直接transform报错：
NotFittedError: This PCA instance is not fitted yet. Call 'fit' with appropriate arguments before using this method.
"""

sklearn中归一化的坑

This MinMaxScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this method.

原因

归一化时,fit() 和transform() 两个方法要分开.

sc_x = MinMaxScaler(feature_range=(0, 1)).fit(X)
X=sc_x.transform(X)

sc_y = MinMaxScaler(feature_range=(0, 1)).fit(Y)
Y = sc_y.transform(Y)

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。

您可能感兴趣的文档:

--结束END--

本文标题: Python之sklearn数据预处理中fit(),transform()与fit_transform()的区别

本文链接: https://lsjlt.com/news/193855.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python之sklearn数据预处理中fit(),transform()与fit_transform()的区别

目录sklearn数据预处理中fit(),transform()与fit_transform()的区别概述举例sklearn中归一化的坑原因总结sklearn数据预处理中...

99+

2023-02-01

Python sklearn数据预处理 Python中fit() Python中transform() Python中fit_transform()
sklearn中的数据预处理和特征工程

　　小伙伴们大家好~o(￣▽￣)ブ，沉寂了这么久我又出来啦，这次先不翻译优质的文章了，这次我们回到Python中的机器学习，看一下Sklearn中的数据预处理和特征工程，老规矩还是先强调一下我的开发环境是Jupyter lab，所用的库和...

99+

2023-01-31

特征数据工程
python sklearn与pandas实现缺失值数据预处理流程详解

注：代码用 jupyter notebook跑的，分割线线上为代码，分割线下为运行结果 1.导入库生成缺失值通过pandas生成一个6行4列的矩阵，列名分别为'col1&#...

99+

2024-04-02
Python 大数据处理中，numpy 和 http 的区别是什么？

在 Python 大数据处理中，numpy 和 http 是两个经常被使用的库和协议。虽然它们都可以用于数据处理，但是它们的本质和用途是不同的。 Numpy，即 Numerical Python，是一个开源的 Python 扩展库，用于支...

99+

2023-08-16

大数据 numpy http
Python数据分析与处理(二)——处理中国地区信息

目录2.1数据的爬取2.2检查重复数据2.3检查缺失值2.4 检查异常值2.1数据的爬取代码： import pandas as pd data=pd.read_csv("ex...

99+

2024-04-02
Python中多处理与多线程的区别是什么

Python中多处理与多线程的区别是什么，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。什么是线程你为什么想要它Python是一种线性语言。但是，当您需要更多的处理能力时，线程模...

99+

2023-06-16
如何使用Python中的数据分析库处理和预测时间序列数据

如何使用Python中的数据分析库处理和预测时间序列数据时间序列数据是指按时间顺序排列的数据，其特点是具有时间上的相关性和趋势性。在许多领域中，时间序列数据分析起着重要的作用，如股市预测、天气预报、销售预测等。Python中有许多强大的数据...

99+

2023-10-22

Python 时间序列数据数据分析库
Python与Django在实时大数据处理中的优势有哪些？

Python和Django都是当下非常流行的开发语言和框架，它们在实时大数据处理方面也有着很大的优势。下面我们将从多个角度来分析这些优势。 1. Python在实时大数据处理中的优势作为一门高级编程语言，Python在实时大数据处理方面具...

99+

2023-08-14

django 实时大数据
大数据处理中，Python与Django的组合究竟有何优势？

在当今数字化时代，数据处理已经成为企业决策的重要组成部分。随着数据量不断增加，大数据技术的应用也越来越广泛，其中Python和Django的组合已经成为了一个热门的选择。那么，在大数据处理中，Python和Django的组合究竟有何优势呢？...

99+

2023-08-18

git django 大数据
循环与迭代：Python 中高效数据处理的秘密武器

循环循环是重复执行代码块直到满足特定条件的结构。Python 提供了多种循环类型： for 循环：用于遍历序列（例如列表、元组）中的每个元素。 for item in [1, 2, 3, 4, 5]: print(item) ...

99+

2024-02-17

Python 循环迭代数据处理效率
大数据分析之 Python：如何使用 NumPy 解决数据处理中的瓶颈问题？

在现代社会中，数据的产生量越来越大，数据的处理和分析也变得越来越复杂。在大数据分析过程中，数据处理是一个必不可少的环节。Python 作为一种高效的数据处理语言，能够帮助我们更好地处理数据，NumPy 作为 Python 中的一个重要库，...

99+

2023-10-03

大数据 numpy unix
异步编程与大数据处理：Python 教程中的最佳实践

在大数据处理中，异步编程是一种非常重要的技术。与传统的同步编程相比，异步编程可以大大提高程序的性能和效率。Python 语言也提供了异步编程的支持。在本文中，我们将介绍 Python 中的异步编程，以及如何使用它来处理大数据。一、Pyt...

99+

2023-09-29

教程大数据异步编程
大数据路径在Python自然语言处理中的应用与优化。

大数据路径在Python自然语言处理中的应用与优化随着大数据时代的到来，自然语言处理(NLP)的应用越来越广泛。Python作为一种高效的编程语言，已经成为了NLP领域的首选语言之一。本文将介绍一、大数据路径的概念大数据路径是指在大数...

99+

2023-06-06

自然语言处理大数据 path
重定向在Linux中的神奇应用：结合Python与大数据实现高效数据处理

在Linux中，重定向是一项非常重要的功能。通过重定向，我们可以将一个命令的输出结果重定向到文件或者另一个命令中，这样就可以实现更加高效的数据处理。本文将介绍如何结合Python与大数据技术，实现高效的数据处理。一、重定向的基本用法在...

99+

2023-09-16

大数据重定向 linux
大数据处理利器：Python 中的 NumPy 与 UNIX 命令如何协同工作？

Python 作为一种高级编程语言，已经成为了大数据处理的必备工具之一。而 NumPy 作为 Python 中的一个科学计算库，提供了一些基本的数学函数和矩阵操作，使得 Python 可以轻松地处理数值计算。此外，在 UNIX 系统中，命...

99+

2023-10-03

大数据 numpy unix