python的去重以及数据合并的用法说明

python的去重 python数据合并 python合并 2023-02-07 15:02:35 800人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录python去重及数据合并drop_dupicatesmergePython去重脚本总结python去重及数据合并 drop_dupicates 参数含义： subse

python去重及数据合并

drop_dupicates

参数含义：

subset：即表示要去重指定参考的列
keep : {‘first’, ‘last’, False}, default ‘first’

inplace:boolean, default False, 直接在原来的数据上修改还是保留副本

data = pd.DataFrame({'id':[1,1,2],'value':[12,14,27]})

#第一个参数传入需要比对的列,在"id"列有相同的id,则进行去重
data.drop_duplicates(['id'],keep='last',inplace=True)

#我想比较"id"、"value"两列的值全部相同时则去重
data.drop_duplicates(['id','value'],keep='last',inplace=True)

#如果想直接比较数据中的全部列都相同时才能去除，则可以按照如下方法.keep默认的是保留第一个
data.drop_duplicates()

merge

首先关于连接，从sql中的可以得知，连接主要分为外连接和内连接：

内连接

内连接是指在两个数据表中，根据其指定合并的列，找到其交集，也就是既在df1中出现，也在df2中出现的数据

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
                  'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='inner') #不写how也没关系，因为merge默认的就是内连接

假设如果在df1和df2中的指定要合并的列的列名不一致的话，则需要显式指定根据哪一列进行合并

df3=pd.DataFrame({'key1':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df4=pd.DataFrame({'key2':['a','b','d'],
                  'data2':range(3)})
df = pd.merge(df3,df4,left_on='key1',right_on='key2')
# 该结果比上面的on='key'的结果多一列相同的列，但是两个的本质是一样的，都是内连接

外连接

外连接可以分为三种，全外连接、左连接和右连接。

全外连接就是保留两个表中指定合并的列关键字的并集，然后在左右两个表中找到相对应的数据进行填充，没有的用NAN代替

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
                  'data2':range(3)})

df = pd.merge(df1,df2,on='key',how='outer')

右连接是保留右表中指定列的所有关键字，然后去左表中找到指定列对应的数据进行补充，没有的就NAN代替

df = pd.merge(df1,df2,on='key',how='right')

左连接是保留左表中指定列的所有关键字，然后去右表中找到指定列对应的数据进行补充，没有的就NAN代替

df = pd.merge(df1,df2,on='key',how='left')

python去重脚本

可以用来去除字典、漏洞数量等

使用方法，将要去重的部分保存成为csv格式，并命名为all.csv，直接执行后，会在当前目录下生成qc.csv的文件！

#coding:utf-8

ciku=open(r'all.csv','r')   #打开需要去重文件
xieci=open(r'qc.csv','w')   #打开处理后存放的文件
cikus=ciku.readlines() 
list2 = {}.fromkeys(cikus).keys()     #列表去重方法，将列表数据当作字典的键写入字典，依据字典键不可重复的特性去重
i=1
for line in list2:
    if line[0]!=',':
        # print line[0:-1].decode('utf-8').encode('gbk')
        # print  u"writing"+i
        i+=1
        xieci.writelines(line)
xieci.close()

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。

您可能感兴趣的文档:

--结束END--

本文标题: python的去重以及数据合并的用法说明

本文链接: https://lsjlt.com/news/194487.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

python的去重以及数据合并的用法说明

目录python去重及数据合并drop_dupicatesmergepython去重脚本总结python去重及数据合并 drop_dupicates 参数含义： subse...

99+

2023-02-07

python的去重 python数据合并 python合并
php合并数组去除重复数据的方法

这篇文章主要讲解了“php合并数组去除重复数据的方法”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“php合并数组去除重复数据的方法”吧！在php中，可以利用array_merge()和arr...

99+

2023-06-20
python-try-except:pass的用法及说明

目录python-try-except:pass用法1.为了跳过for循环里的某次循环2.还可以写成这样3.还有一种用法python try: pass except:pass流程控...

99+

2022-12-20

python-try-except:pass python pass python-try-except
Python-withopen()asf的用法及说明

目录Python-with open() as f的用法相关参数file对象的属性附一道例题总结Python-with open() as f的用法 with open(r'file...

99+

2022-12-20

Python with open() with open() as f Python with open
Java去重排序之Comparable与Comparator的使用及说明

目录一、排序与去重二、Comparable与Comparator的使用三、区别总结一、排序与去重日常工作中，总会有一些场景需要对结果集进行一些过滤。比如，与第三方交互后获取的结果集...

99+

2023-05-14

Java去重排序 Java Comparable的使用 Java Comparator的使用
Python之tkinter组合框Combobox用法及说明

目录组合框 Combobox 简介建立 Combobox设置默认选项 current()获得目前选项 get()绑定 Combobox总结组合框 Combobox 简介 Combob...

99+

2023-05-19

Python tkinter组合框 tkinter组合框Combobox tkinter组合框用法
ThreadPoolExecutor参数的用法及说明

目录ThreadPoolExecutor参数说明一、ThreadPoolExecutor核心参数说明二、ThreadPoolExecutor执行顺序三、ThreadPoolExecu...

99+

2023-03-14

ThreadPoolExecutor参数 ThreadPoolExecutor参数用法 ThreadPoolExecutor参数说明
python numpy.linalg.norm函数的使用及说明

目录numpy.linalg.norm函数的使用np.linalg.norm()函数用法总结numpy.linalg.norm函数的使用 1、linalg = linear（线性）+...

99+

2023-02-05

python函数 numpy.linalg.norm函数 numpy.linalg.norm
php 合并数组去掉重复的数据库

随着互联网的高速发展，PHP已经成为了网页开发领域最为流行的语言之一。PHP语言在处理数组时有着相当出色的表现，它提供了许多方法可以轻松实现数组的合并、去重等操作，在数据库中也有非常广泛的应用。本文将介绍如何使用PHP合并数组并将重复内容去...

99+

2023-05-19
SQL函数Group_concat的用法及说明

目录SQL函数Group_concat的用法完整语法如下Group_concat函数长度问题解决的方式有三个总结SQL函数Group_concat的用法完整语法如下 group_concat([DISTINC...

99+

2023-03-02

SQL函数 Group_concat的用法 SQL Group_concat
python scipy.misc.imsave()函数的用法说明

这个函数用于储存图片，将数组保存为图像此功能仅在安装了Python Imaging Library（PIL）时可用。版本也比较老了，新的替代它的是imageio.imwrite() 用法： imsave(*ar...

99+

2022-06-02

python scipy.misc .imsave函数
Python中的lambda和apply用法及说明

目录1 lambda1.1 举最简单的例子1.2 再举一个普通的例子2 Apply2.1 举例2.2 下面的例子是DataFrame中apply的用法总结1 lambda lambd...

99+

2022-12-21

Python中lambda用法 Python中apply用法 lambda和apply用法
mysql索引合并的说明和使用

本篇内容介绍了“mysql索引合并的说明和使用”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！什么是索引合并...

99+

2024-04-02
JavaScript中的伪数组用法及说明

目录JavaScript中的伪数组1.什么是伪数组2.如何创建一个伪数组对象3.数组的concat方法JavaScript伪数组变真数组伪数组与真数组的区别总结JavaScript中...

99+

2023-02-10

JavaScript伪数组 JS伪数组用法 JS伪数组说明
python的partial()用法说明

在functools模块中有一个工具partial()，可以用来"冻结"一个函数的参数，并返回"冻结"参数后的新函数。很简单的解释，也是官方手册给的示例。对于int()函数，它可以将给定的数值转换成十进制整数，转换时可以指定以几进制的方...

99+

2023-01-30

python partial
Java文档注释用法以及JavaDoc的使用说明

本篇内容介绍了“Java文档注释用法以及JavaDoc的使用说明”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！简介文档注释负责描述类、接口、...

99+

2023-06-20
Map集合之HashMap的使用及说明

目录HashMap 概述jdk 1.8 之前与之后的 HashMapHashMap 的数组，链表，红黑树之间的转换HashMap 扩容机制HashMap 源码HashMap 的基本属...

99+

2022-11-13

Map集合 HashMap的使用 Map集合HashMap
Python-apply(lambdax:)的使用及说明

目录Python-apply(lambda x: )使用python的lambda函数匿名函数的定义匿名函数的应用总结Python-apply(lambda x: )使用 def i...

99+

2023-02-01

Python apply apply(lambda x: ) apply lambda x:
Python中的imread()函数用法说明

cv2方式： # -*- coding: UTF-8 -*- import cv2 """ cv2模块--图片的读入和显示 """ image_path="D:/Pycharm...

99+

2024-04-02
PHP 数组合并去重算法：并行的解决方案

php 数组合并去重算法提供了并行的解决方案，将原始数组分成小块并行处理，主进程合并块的结果去重。算法步骤：分割原始数组为均等分配的小块。并行处理每个块去重。合并块结果并再次去重。 P...

99+

2024-04-18

php 数组