首页 > 资讯 > 后端开发 > Python >浅谈Pandas dataframe数据处理方法的速度比较

922

分享到

浅谈Pandas dataframe数据处理方法的速度比较

2024-04-02 19:04:59 922人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

数据修改主要以增删改差为主，这里比较几种写法在数据处理时间上的巨大差别。数据量大概是500万行级别的数据，文件大小为100M。 1.iloc iloc是一种速度极其慢的写法。这里我

数据修改主要以增删改差为主，这里比较几种写法在数据处理时间上的巨大差别。

数据量大概是500万行级别的数据，文件大小为100M。

1.iloc

iloc是一种速度极其慢的写法。这里我们对每个csv文件中的每一行循环再用iloc处理，示例代码如下：


for index in range(len(df)):
   df.iloc['attr'][index] = xxx

使用这种方法对五百万行的数据进行处理大概需要5个小时，实在是很慢。

2.at

at相比于iloc有了很大的性能提升，也是for循环处理，示例代码如下：


for i in range(len(df)):
  if df.at[i,'attr'] > 0:
    sum_positive += df.at[i,'attr']
  else:
    sum_negetive += df.at[i,'sttr']

在我的程序里at和iloc是可以通用的，用at，程序的速度会有大幅提高，大概10分钟，但是还不够。

3.apply(lambda x:...)

想说apply是因为我觉得for循环速度太慢，想在循环上对程序进行优化。然后网上有人说apply可以大幅度提升速度，然而经过测试发现在我的程序里，使用apply和for差不多吧，性能也一般。

4.直接用series处理

这才是真正优化for循环的方法，以上面at的程序为例，可以改写为：


sum_positive += df['attr'][df.attr > 0].sum()
sum_negative += df['attr'][df.attr < 0].sum()

将程序都改为series处理，快了很多，最后500万行的数据大概需要37秒能跑完，基本符合预期。

这里提两句关于dataframe属性筛选，也就是上面df.attr > 0这一部分。首先pandas这个属性筛选实在是很强大，很方便。

其次是我们属性筛选的时候不要去修改属性，而是修改后面的数字，比如，我们不要这样写：

float(df.attr )> 0，而是这样写：

df.attr > str(0)，因为df.attr作为属性是不能随便动的。

补充：pandas中DataFrame单个数据提取效率与修改效率

目标

使用pandas处理金融数据及建模中经常需要按时间序列顺序循DataFrame数据，读取具体位置的数据判断或修改。经验上这种操作要比直接对二维列表或者np.array格式数据慢的多，原因可能在于index及columns层次的查找（两个字典，都不是连续数组，每次查找定位都需要时间）和DataFrame中数据的内存布局，有机会以后再深入研究。

这里做一组数值实验对比几种方法的效率。

生成数据

先生成一个二维数组随机数作为DataFrame数据，不失一般性，并把列名、行名设为标记顺序的字符串。


import numpy as np
import pandas as pd

from copy import deepcopy
from time import time

np.random.seed(20000)
I = 900
df = pd.DataFrame(np.random.standard_nORMal((I, I)),
   columns=['c'+str(_) for _ in range(I)],
         index=['i'+str(_) for _ in range(I)])

然后从限定范围内随机生成取值位置，为了方便对比，把随机坐标与字符串名对应起来


columns_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)
index_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)

columns_str = ['c'+str(_) for _ in columns_num]
index_str = ['i'+str(_) for _ in index_num]

读取测试

首先传统方法，直接取columns及index中名称定位


t0 = time()
for m in columns_str:
  for n in index_str:
    c = df[m][n]
print(time()-t0)

6.789840459823608

先columns列名后在values中取行坐标，速度快了一些


t0 = time()
for m in columns_str:
  for n in index_num:
    c = df[m].values[n]
print(time()-t0)

1.9697318077087402

loc方法，速度和直接取columns及index中名称定位差不多


t0 = time()
for m in columns_str:
  for n in index_str:
    c = df.loc[n, m]
print(time()-t0)

5.661889314651489

at方法，比loc快一点，毕竟loc可以切片的


t0 = time()
for m in columns_str:
  for n in index_str:
    c = df.at[m, n]
print(time()-t0)

3.3770089149475098

假设知道具体横纵坐标后，我们再比较：

还是从取values开始，也很慢，看来每次从df中取values很耗时


t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.values[n][m]
print(time()-t0)

6.041872024536133

iloc试一下，没什么区别


t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.iloc[n, m]
print(time()-t0)

6.103677034378052

iat做对比，提升不大，有点失望


t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.iat[n, m]
print(time()-t0)

4.375299692153931

最后最高效的方法，还是先取二维数组来再定位


t0 = time()
b = df.values
for m in columns_num:
  for n in index_num:
    c = b[n][m]
print(time()-t0)

0.6402544975280762

修改测试

重复刚才的过程，把对应值改为0作为简单测试方式，别忘了原始数据要备份

取columns及index中名称定位


df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup[m][n] = 0.0
print(time()-t0)

41.99269938468933

先columns列名后在values中取行坐标


df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_num:
    df_backup[m].values[n] = 0.0
print(time()-t0)

2.215076208114624

loc方法


df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup.loc[n, m] = 0.0
print(time()-t0)

134.39290761947632

at方法，在修改数值上竟然比loc快这么多


df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup.at[n, m] = 0.0
print(time()-t0)

4.7453413009643555

在values上改，也是不错的，和读取相近，看来还都是在每次提取values上耗时


df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.values[n][m] = 0.0
print(time()-t0)

6.346027612686157

iloc方法


df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.iloc[n, m] = 0.0
print(time()-t0)

122.33384037017822

iat方法


df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.iat[n, m] = 0.0
print(time()-t0)

5.381632328033447

取二维数组来再定位


df_backup = deepcopy(df)
t0 = time()
b = df.values
for m in columns_num:
  for n in index_num:
    c = b[n][m]
print(time()-t0)

0.4298992156982422

总结

效率上肯定是直接取数值最优的，这次系统性比较做个记录。代码写的有点啰嗦了，不过方便复制实验。在建模级别的代码上我还是习惯于用第2种方法，主要是鉴于代码可读性、维护和修改上。代码会在key上告诉我这里是什么，直观易读。

以前也曾为了提高代码运行效率写过先提取二维数组的，但columns多了就很费劲，重读还需要转译一遍。当然也可以把数据写成类，但是感觉和pandas不好融合，从建模和研究效率上没有太好的解决方案。之后会找时间再研究DataFrame内部机制。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。如有错误或未考虑完全的地方，望不吝赐教。

您可能感兴趣的文档:

--结束END--

本文标题: 浅谈Pandas dataframe数据处理方法的速度比较

本文链接: https://lsjlt.com/news/122988.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

浅谈Pandas dataframe数据处理方法的速度比较

1.iloc

2.at

3.apply(lambda x:...)

4.直接用series处理

目标

生成数据

读取测试

修改测试

总结

浅谈Pandas dataframe数据处理方法的速度比较

浅谈Java字符串比较的三种方法

Pandas DataFrame数据修改值的方法

详解Pandas如何高效对比处理DataFrame的两列数据

Pandas 多进程处理数据提高速度

浅谈Python处理PDF的方法

Python数据分析Pandas Dataframe排序操作的方法

浅谈四种快速易用的Python数据可视化方法

浅谈Python数据处理csv的应用小结

实时数据处理：Java和numpy的比较

学习使用Pandas：删除DataFrame中的一列数据的方法

Python使用Pandas处理测试数据的方法

Python数据分析之Pandas Dataframe条件筛选遍历的方法

高效的数据处理利器：pandas的数据清洗方法

python Pandas时序数据处理的方法有哪些

java进行数据的比较的实例方法

数据库加速魔法：让数据库处理速度提升一倍

android中处理各种触摸事件的方法浅谈

数据管理利器：深度比较Oracle和SQL的特点

响应速度更快的大数据处理方法，你需要了解！

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义