首页 > 资讯 > 精选 >pandas如何提升计算效率

811

分享到

pandas如何提升计算效率

2023-06-15 06:06:55 811人浏览八月长安

摘要

这篇文章给大家分享的是有关pandas如何提升计算效率的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。前言Pandas是为一次性处理整个行或列的矢量化操作而设计的，循环遍历每个单元格、行或列并不是它的设计用途。所以

这篇文章给大家分享的是有关pandas如何提升计算效率的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

前言

Pandas是为一次性处理整个行或列的矢量化操作而设计的，循环遍历每个单元格、行或列并不是它的设计用途。所以，在使用Pandas时，你应该考虑高度可并行化的矩阵运算。

一、避免使用for循环

尽量使用列号或者行号进行矩阵检索，避免使用for循环。

1.1使用for循环

import osimport pandas as pdimport datetimepath = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'def read_csv(target_csv):    target = pd.read_csv(path,header=None,sep=',')    return targetstart_time = datetime.datetime.now()a = read_csv(path)for i in range(10000):    b = a.iloc[i]end_time = datetime.datetime.now()print(end_time-start_time)

耗时：0:00:02.455211

1.2使用行号检索

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'def read_csv(target_csv):    target = pd.read_csv(path,header=None,sep=',')    return targetstart_time = datetime.datetime.now()a = read_csv(path)b = a.iloc[10000]end_time = datetime.datetime.now()print(end_time-start_time)

耗时：0:00:00.464756

二、使用for循环的条件下提高效率

2.0 如果必须使用for循环如何提高效率

我们可以做的最简单但非常有价值的加速是使用Pandas的内置 .iterrows() 函数。

在上一节中编写for循环时，我们使用了 range() 函数。然而，当我们在python中对大范围的值进行循环时，生成器往往要快得多。

Pandas的 .iterrows() 函数在内部实现了一个生成器函数，该函数将在每次迭代中生成一行Dataframe。更准确地说，.iterrows() 为DataFrame中的每一行生成(index, Series)的对（元组）。这实际上与在原始Python中使用 enumerate() 之类的东西是一样的，但运行速度要快得多！

生成器（Generators）
生成器函数允许你声明一个行为类似迭代器的函数，也就是说，它可以在for循环中使用。这大大简化了代码，并且比简单的for循环更节省内存。

当你想要处理一个庞大的列表时，比如10亿个浮点数，问题就出现了。使用for循环，在内存中创建了大量的内存huge列表，并不是每个人都有无限的RAM来存储这样的东西！

生成器将创建元素时，仅在需要时将它们存储在内存中。一次一个。这意味着，如果必须创建10亿个浮点数，那么只能一次将它们存储在内存中。Python中的range()函数使用生成器来构建列表。

也就是说，如果你想多次迭代列表并且它足够小以适应内存，那么使用for循环和range函数会更好。这是因为每次访问list值时，生成器和range都会重新生成它们，而range是一个静态列表，并且内存中已存在整数以便快速访问。

2.1使用range

import osimport pandas as pdimport datetimepath = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'def read_csv(target_csv):    target = pd.read_csv(path,header=None,sep=',')    return targetstart_time = datetime.datetime.now()a = read_csv(path)for data_row in range(a.shape[0]):    b = a.iloc[data_row]end_time = datetime.datetime.now()print(end_time-start_time)

耗时:0:00:07.642816

2.2使用 .iterrows() 代替 range

import osimport pandas as pdimport datetimepath = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'def read_csv(target_csv):    target = pd.read_csv(path,header=None,sep=',')    return targetstart_time = datetime.datetime.now()a = read_csv(path)for index,data_row in a.iterrows():    b = data_rowend_time = datetime.datetime.now()print(end_time-start_time)

耗时：0:00:03.513161

三、使用.apply

iterrows()函数极大地提高了速度，但我们还远远没有完成。请始终记住，当使用为向量操作设计的库时，可能有一种方法可以在完全没有for循环的情况下最高效地完成任务。

为我们提供此功能的Pandas功能是 .apply() 函数。apply()函数接受另一个函数作为输入，并沿着DataFrame的轴（行、列等）应用它。在传递函数的这种情况下，lambda通常可以方便地将所有内容打包在一起。

感谢各位的阅读！关于“pandas如何提升计算效率”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

--结束END--

本文标题: pandas如何提升计算效率

本文链接: https://lsjlt.com/news/278567.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

pandas如何提升计算效率

前言

一、避免使用for循环

二、使用for循环的条件下提高效率

三、使用.apply

pandas如何提升计算效率

pandas提升计算效率的一些方法汇总

效率的巅峰：分时操作系统如何提升计算机利用率

中小企业用户如何通过云计算提升业务效率

如何提升MYSQL查询效率

如何提升JavaScript递归效率

提升Python计算效率的技巧与实践秘籍

PHP和LeetCode：如何利用NumPy库提升算法效率？

Windows下的分布式计算：如何提高效率？

如何提升Vista SP2搜索效率

Python pandas如何计算每行的增长率与累计增长率

VUE计算属性快速入门：用计算属性提升你的开发效率

【效率大师】优化 VUE 计算属性，提升应用性能

如何提升SQLServer Delete数据的效率

如何提升香港服务器效率

如何利用node提升工作效率

mysql如何提升跨表查询效率

如何提升 C++ 函数执行效率？

Golang如何提升数据处理效率？

IDE中的Python NumPy：如何提高分布式计算效率？

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南