首页 > 资讯 > 后端开发 > Python >如何用Python进行数据清洗

501

分享到

如何用Python进行数据清洗

2024-04-02 19:04:59 501人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章主要介绍“如何用python进行数据清洗”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“如何用Python进行数据清洗”文章能帮助大家解决问题。数据清洗是

这篇文章主要介绍“如何用python进行数据清洗”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“如何用Python进行数据清洗”文章能帮助大家解决问题。

数据清洗是数据分析的必备环节，在进行分析过程中，会有很多不符合分析要求的数据，例如重复、错误、缺失、异常类数据。

01 重复值处理

数据录入过程、数据整合过程都可能会产生重复数据，直接删除是重复数据处理的主要方法。pandas提供查看、处理重复数据的方法duplicated和drop_duplicates。以如下数据为例:

>sample = pd.DataFrame({'id':[1,1,1,3,4,5],

'name':['Bob','Bob','Mark','Miki','Sully','Rose'],

'score':[99,99,87,77,77,np.nan],

'group':[1,1,1,2,1,2],})

>sample

group id name score

0 1 1 Bob 99.0

1 1 1 Bob 99.0

2 1 1 Mark 87.0

3 2 3 Miki 77.0

4 1 4 Sully 77.0

5 2 5 Rose NaN

发现重复数据通过duplicated方法完成，如下所示，可以通过该方法查看重复的数据。

>sample[sample.duplicated()]

group id name score

1 1 1 Bob 99.0

需要去重时，可drop_duplicates方法完成：

>sample.drop_duplicates()

group id name score

0 1 1 Bob 99.0

2 1 1 Mark 87.0

3 2 3 Miki 77.0

4 1 4 Sully 77.0

5 2 5 Rose NaN

drop_duplicates方法还可以按照某列去重，例如去除id列重复的所有记录：

>sample.drop_duplicates('id')

group id name score

0 1 1 Bob 99.0

3 2 3 Miki 77.0

4 1 4 Sully 77.0

5 2 5 Rose NaN

02 缺失值处理

缺失值是数据清洗中比较常见的问题，缺失值一般由NA表示，在处理缺失值时要遵循一定的原则。

首先，需要根据业务理解处理缺失值，弄清楚缺失值产生的原因是故意缺失还是随机缺失，再通过一些业务经验进行填补。一般来说当缺失值少于20%时，连续变量可以使用均值或中位数填补；分类变量不需要填补，单算一类即可，或者也可以用众数填补分类变量。

当缺失值处于20%-80%之间时，填补方法同上。另外每个有缺失值的变量可以生成一个指示哑变量，参与后续的建模。当缺失值多于80%时，每个有缺失值的变量生成一个指示哑变量，参与后续的建模，不使用原始变量。

在下图中展示了中位数填补缺失值和缺失值指示变量的生成过程。

Pandas提供了fillna方法用于替换缺失值数据，其功能类似于之前的replace方法，例如对于如下数据：

> sample

group id name score

0 1.0 1.0 Bob 99.0

1 1.0 1.0 Bob NaN

2 NaN 1.0 Mark 87.0

3 2.0 3.0 Miki 77.0

4 1.0 4.0 Sully 77.0

5 NaN NaN NaN NaN

分步骤进行缺失值的查看和填补如下：

1. 查看缺失情况

在进行数据分析前，一般需要了解数据的缺失情况，在Python中可以构造一个lambda函数来查看缺失值，该lambda函数中，sum(col.isnull())表示当前列有多少缺失，col.size表示当前列总共多少行数据：

>sample.apply(lambda col:sum(col.isnull())/col.size)

group 0.333333

id 0.166667

name 0.166667

score 0.333333

dtype: float64

2. 以指定值填补

pandas数据框提供了fillna方法完成对缺失值的填补，例如对sample表的列score填补缺失值，填补方法为均值：

>sample.score.fillna(sample.score.mean())

0 99.0

1 85.0

2 87.0

3 77.0

4 77.0

5 85.0

Name: score, dtype: float64

当然还可以以分位数等方法进行填补：

>sample.score.fillna(sample.score.median())

0 99.0

1 82.0

2 87.0

3 77.0

4 77.0

5 82.0

Name: score, dtype: float64

3. 缺失值指示变量

pandas数据框对象可以直接调用方法isnull产生缺失值指示变量，例如产生score变量的缺失值指示变量：

>sample.score.isnull()

0 False

1 True

2 False

3 False

4 False

5 True

Name: score, dtype: bool

若想转换为数值0，1型指示变量，可以使用apply方法，int表示将该列替换为int类型。

>sample.score.isnull().apply(int)

0 0

1 1

2 0

3 0

4 0

5 1

Name: score, dtype: int64

关于“如何用Python进行数据清洗”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识，可以关注编程网Python频道，小编每天都会为大家更新不同的知识点。

您可能感兴趣的文档:

--结束END--

本文标题: 如何用Python进行数据清洗

本文链接: https://lsjlt.com/news/94022.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

如何用Python进行数据清洗

如何用Python进行数据清洗

怎么使用Python进行数据清洗

如何在Python中进行数据清洗和处理

详解Python如何利用Pandas与NumPy进行数据清洗

python如何清洗数据

利用Python进行数据清洗的操作指南

怎么在Python中使用Pandas进行数据清洗

使用Python进行数据清洗的完整指南

Python怎么利用Pandas与NumPy进行数据清洗

Python如何实现数据清洗

利用pandas进行数据清洗的方法

如何用python清洗文件中的数据

r语言中怎么进行数据清洗

使用Python怎么清洗数据

MySQL中怎么使用LOOP循环进行数据清洗

PHP 中使用 Elasticsearch 进行数据清洗与聚合计算

学会使用pandas进行高效的数据清洗步骤

如何优化数据库的数据清洗

Python怎么实现数据清洗

用Python实现网易云音乐的数据进行数据清洗和可视化分析

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义