Python pandas找出、删除重复的数据实例

2024-04-02 19:04:59 678人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录前言一、duplicated()二、drop_duplicates()总结前言当我们使用pandas处理数据的时候，经常会遇到数据重复的问题，如何找出重复数据进而分析重复原因，

前言

当我们使用pandas处理数据的时候，经常会遇到数据重复的问题，如何找出重复数据进而分析重复原因，或者如何直接删除重复的数据是一个关键的步骤，pandas提供了很方便的方法：duplicated()和drop_duplicates()。

一、duplicated()

duplicated()可以被用在DataFrame的三种情况下，分别是pandas.DataFrame.duplicated、pandas.Series.duplicated和pandas.Index.duplicated。他们的用法都类似，前两个会返回一个布尔值的Series，最后一个会返回一个布尔值的numpy.ndarray。

DataFrame.duplicated(subset=None, keep=‘first’)

subset：默认为None，需要标记重复的标签或标签序列

keep：默认为‘first’，如何标记重复标签

first：将除第一次出现以外的重复数据标记为True
last：将除最后一次出现以外的重复数据标记为True
False：将所有重复的项都标记为True（不管是不是第一次出现）

Series.duplicated(keep=‘first’)

keep：与DataFrame.duplicated的keep相同

Index.duplicated(keep=‘first’)

keep：与DataFrame.duplicated的keep相同

例子：

import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

brand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

df.duplicated()

0 False
1 True
2 False
3 False
4 False
dtype: bool

df.duplicated(keep='last')

0 True
1 False
2 False
3 False
4 False
dtype: bool

df.duplicated(keep=False)

0 True
1 True
2 False
3 False
4 False
dtype: bool

df.duplicated(subset=['brand'])

0 False
1 True
2 False
3 True
4 True
dtype: bool

关于Index的重复标记：

df = df.set_index('brand')
df

style rating
brand
Yum Yum cup 4.0
Yum Yum cup 4.0
Indomie cup 3.5
Indomie pack 15.0
Indomie pack 5.0

df.index.duplicated()

array([False,  True, False,  True,  True])

二、drop_duplicates()

与duplicated()类似，drop_duplicates()是直接把重复值给删掉。下面只会介绍一些含义不同的参数。

DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)

subset：与duplicated()中相同
keep：与duplicated()中相同
inplace：与pandas其他函数的inplace相同，选择是修改现有数据还是返回新的数据

Series.drop_duplicates()相比Series.duplicated()也是多了一个inplace参数，和上诉介绍一样，Index.drop_duplicates()与Index.duplicated()参数相同就不做赘述。下面是例子：

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

brand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

df.drop_duplicates()

brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

df.drop_duplicates(inplace = True)

df

brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

总结

有剩余无，pandas有很多好用的库，但是系统学下来很不现实，都是在实际项目中不断的发现、积累、记录下来。

到此这篇关于python pandas找出、删除重复数据的文章就介绍到这了,更多相关pandas找出删除重复数据内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: Python pandas找出、删除重复的数据实例

本文链接: https://lsjlt.com/news/119245.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python pandas找出、删除重复的数据实例

目录前言一、duplicated()二、drop_duplicates()总结前言当我们使用pandas处理数据的时候，经常会遇到数据重复的问题，如何找出重复数据进而分析重复原因，...

99+

2024-04-02
怎么使用Python pandas找出删除重复的数据

这篇文章主要介绍了怎么使用Python pandas找出删除重复的数据的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇怎么使用Python pandas找出删除重复的数据文章都会有所收获，下面...

99+

2023-07-02
pandas删除重复数据

1、pandas中重复索引问题 df = df[~df.index.duplicated()] 2、pandas删除重复数据行 # 首先导入常用的两个包import pandas as pdimport numpy as np# 1.删除...

99+

2023-09-01

pandas python 数据分析
SQL删除重复数据的实例教程

目录1 SQL去重2 distinct3 group by1. 查询根据名字去重后数据(名字相同取id值大的)2. 删除名字相同数据(名字相同保留id值大的)4 总结1 SQL去重 ...

99+

2024-04-02
Pandas DataFrame.drop()删除数据的方法实例

目录语法参数结果展示扩展总结df.drop()通过指定标签名称和相应的轴，或直接给定索引或列名称来删除行或列语法 df.drop(labels = None, axis = 0, ...

99+

2024-04-02
Python pandas删除指定行/列数据的方法实例

目录1.滤除缺失数据dropna()1)滤除含有NaN值的所有行2)滤除含有NaN值的所有列3)滤除元素都是NaN值的行4)滤除元素都是NaN值的列5)滤除指定列中含有缺失的行2.删...

99+

2024-04-02
Python Pandas中DataFrame.drop_duplicates()删除重复值详解

目录语法参数结果展示扩展:识别重复值总结语法 df.drop_duplicates(subset = None, keep = 'first',...

99+

2024-04-02
Python Pandas中DataFrame.drop_duplicates()怎么删除重复值

这篇“Python Pandas中DataFrame.drop_duplicates()怎么删除重复值”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能...

99+

2023-07-02
postgresql 删除重复数据案例详解

1.建表 -- ---------------------------- -- Table structure for test -- ------------------...

99+

2024-04-02
oacle 删除重复数据

--测试数据create table test as select * from dba_objects;insert into test select * from test;--查看...

99+

2024-04-02
mysql删除重复数据

mysql删除重复数据分为两种情况：一、以一个字段来唯一确定一条记录，可以用以下SQL来删除： delete glt_entity_tmp from glt_entity_tmp,(selec&...

99+

2024-04-02
数据库删除重复数据

当数据库数据量大的时候，删除重复元素是很讨厌的，有时候怎么也写不对，闲下来整理一下删除重复数据的sql，数据表是之前看mysql教学视频的素材，但是找不到哪...

99+

2024-04-02
php怎么查找和删除数组中的重复数据

在Web开发中，经常会遇到需要对大量数据进行查找和操作的情况，例如从数据库中查询某些特定记录或者对数据进行删除操作。在这样的情景下，PHP作为一种广泛应用的Web开发语言，其内置的函数和库往往可以方便地完成这些任务。本文将介绍如何使用PHP...

99+

2023-05-14

php php数组
php如何查找和删除数组中的重复数据

本文小编为大家详细介绍“php如何查找和删除数组中的重复数据”，内容详细，步骤清晰，细节处理妥当，希望这篇“php如何查找和删除数组中的重复数据”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。查找重复项首先，在进行...

99+

2023-07-05
MySQL数据库中怎么查找删除重复行

这篇文章给大家介绍MySQL数据库中怎么查找删除重复行，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。当你对b字段排序（分组），相同值的c被分到不同的组，因此不能用COUNT(DISTI...

99+

2024-04-02
pandas删除某行或某列数据的实现示例

目录1、drop()函数2、del函数首先，创建一个DataFrame格式数据作为举例数据。 # 创建一个DataFrame格式数据 data = {'a': ['a0', 'a1'...

99+

2024-04-02
Android List删除重复数据

1、通过循环进行删除public static void removeDuplicate(List list) { for ( int i = 0 ; i < list.size() - 1 ; i ++ ) { for ( int ...

99+

2023-05-31

list 重复数据 roi
postgresql如何找到表中重复数据的行并删除

目录PostgreSQL找到表中重复数据的行并删除创建测试表并插入数据找到重复行并删除postgresql常用的删除重复数据方法最高效方法PG中三种删除重复数据方法总结postgresql找到表中重复数据的行并删除创建...

99+

2023-05-05

postgresql删除重复数据删除表重复数据行 postgresql重复数据删除
sql怎么找出重复的数据

要找出重复的数据，可以使用SQL语句中的GROUP BY和HAVING子句。下面是一个示例，假设有一个名为employee...

99+

2023-10-22

sql
Python实现删除重复文件的示例代码

此程序主要是针对某个目录下的全部文件进行筛选，会删除重复的文件。原理很简单，会计算每个文件的哈希，将哈希存入一个字典，文件名对应哈希。 import os import hashl...

99+

2023-02-14

Python删除重复文件 Python删除文件 Python重复文件