首页 > 资讯 > 后端开发 > Python >Python Vaex如何实现快速分析100G大数据量

103

分享到

Python Vaex如何实现快速分析100G大数据量

Python 2023-05-14 22:05:30 103人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

pandas处理大数据的限制现在的数据科学比赛提供的数据量越来越大，动不动几十个G，甚至上百G，这就要考验机器性能和数据处理能力。python中的pandas是大家常用的数据处理工具，能应付较大数据集（千万行级别），但当数据量达到十亿百亿行

pandas处理大数据的限制

现在的数据科学比赛提供的数据量越来越大，动不动几十个G，甚至上百G，这就要考验机器性能和数据处理能力。

python中的pandas是大家常用的数据处理工具，能应付较大数据集（千万行级别），但当数据量达到十亿百亿行级别，pandas处理起来就有点力不从心了，可以说非常的慢。

这里面会有电脑内存等性能的因素，但pandas本身的数据处理机制（依赖内存）也限制了它处理大数据的能力。

当然pandas可以通过chunk分批读取数据，但是这样的劣势在于数据处理较复杂，而且每一步分析都会消耗内存和时间。

下面用pandas读取3.7个G的数据集（hdf5格式），该数据集共有4列、1亿行，并且计算第一行的平均值。我的电脑CPU是i7-8550U，内存8G，看看这个加载和计算过程需要花费多少时间。

数据集：

Python Vaex如何实现快速分析100G大数据量

使用pandas读取并计算：

Python Vaex如何实现快速分析100G大数据量

看上面的过程，加载数据用了15秒，平均值计算用了3.5秒，总共18.5秒。

这里用的是hdf5文件，hdf5是一种文件存储格式，相比较csv更适合存储大数据量，压缩程度高，而且读取、写入也更快。

换上今天的主角vaex，读取同样的数据，做同样的平均值计算，需要多少时间呢？

使用vaex读取并计算：

Python Vaex如何实现快速分析100G大数据量

文件读取用了9ms，可以忽略不计，平均值计算用了1s，总共1s。

同样是读取1亿行的hdfs数据集，为什么pandas需要十几秒，而vaex耗费时间接近于0呢？

这里主要是因为pandas把数据读取到了内存中，然后用于处理和计算。而vaex只会对数据进行内存映射，而不是真的读取数据到内存中，这个和spark的懒加载是一样的，在使用的时候才会去加载，声明的时候不加载。

所以说不管加载多大的数据，10GB、100GB...对vaex来说都是瞬间搞定。美中不足的是，vaex的懒加载只支持HDF5, Apache Arrow,Parquet, FITS等文件，不支持csv等文本文件，因为文本文件没办法进行内存映射。

可能有的小伙伴不太理解内存映射，下面放一段解释，具体要弄清楚还得自行摸索：

内存映射是指硬盘上文件的位置与进程逻辑地址空间中一块大小相同的区域之间的一一对应。这种对应关系纯属是逻辑上的概念，物理上是不存在的，原因是进程的逻辑地址空间本身就是不存在的。在内存映射的过程中，并没有实际的数据拷贝，文件没有被载入内存，只是逻辑上被放入了内存，具体到代码，就是建立并初始化了相关的数据结构（struct address_space）。

什么是vaex

前面对比了vaex和pandas处理大数据的速度，vaex优势明显。虽然能力出众，不比pandas家喻户晓，vaex还是个刚出圈的新人。

vaex同样是基于Python的数据处理第三方库，使用pip就可以安装。

官网对vaex的介绍可以总结为三点：

vaex是一个用处理、展示数据的数据表工具，类似pandas；
vaex采取内存映射、惰性计算，不占用内存，适合处理大数据；
vaex可以在百亿级数据集上进行秒级的统计分析和可视化展示；

vaex的优势在于：

性能：处理海量数据，109 行/秒；
惰性：快速计算，不占用内存；
零内存复制：在进行过滤/转换/计算时，不复制内存，在需要时进行流式传输；
可视化：内含可视化组件；
api：类似pandas，拥有丰富的数据处理和计算函数；
可交互：配合Jupyter notebook使用，灵活的交互可视化；

安装vaex

使用pip或者conda进行安装：

Python Vaex如何实现快速分析100G大数据量

读取数据

vaex支持读取hdf5、csv、parquet等文件，使用read方法。hdf5可以惰性读取，而csv只能读到内存中。

Python Vaex如何实现快速分析100G大数据量

vaex数据读取函数：

Python Vaex如何实现快速分析100G大数据量

数据处理

有时候我们需要对数据进行各种各样的转换、筛选、计算等，pandas的每一步处理都会消耗内存，而且时间成本高。除非说使用链式处理，但那样过程就很不清晰。

vaex则全过程都是零内存。因为它的处理过程仅仅产生expression（表达式），表达式是逻辑表示，不会执行，只有到了最后的生成结果阶段才会执行。而且整个过程数据是流式传输，不会产生内存积压。

Python Vaex如何实现快速分析100G大数据量

可以看到上面有筛选和计算两个过程，都没有复制内存，这里采用了延迟计算，也就是惰性机制。如果每个过程都真实计算，消耗内存不说，单是时间成本就很大。

vaex的统计计算函数：

Python Vaex如何实现快速分析100G大数据量

可视化展示

vaex还可以进行快速可视化展示，即便是上百亿的数据集，依然能秒出图。

Python Vaex如何实现快速分析100G大数据量

vaex可视化函数：

Python Vaex如何实现快速分析100G大数据量

结论

vaex有点类似spark和pandas的结合体，数据量越大越能体现它的优势。只要你的硬盘能装下多大数据，它就能快速分析这些数据。

vaex还在快速发展中，集成了越来越多pandas的功能，它在GitHub上的star数是5k，成长潜力巨大。

附：hdf5数据集生成代码（4列1亿行数据）

import pandas as pd
import vaex
df = pd.DataFrame(np.random.rand(100000000,4),columns=['col_1','col_2','col_3','col_4'])
df.to_csv('example.csv',index=False)
vaex.read('example.csv',convert='example1.hdf5')

注意这里不要用pandas直接生成hdf5，其格式会与vaex不兼容。

以上就是Python Vaex如何实现快速分析100G大数据量的详细内容，更多请关注编程网其它相关文章！

您可能感兴趣的文档:

--结束END--

本文标题: Python Vaex如何实现快速分析100G大数据量

本文链接: https://lsjlt.com/news/206305.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python Vaex如何实现快速分析100G大数据量

pandas处理大数据的限制

什么是vaex

安装vaex

读取数据

数据处理

可视化展示

结论

Python Vaex如何实现快速分析100G大数据量

PythonVaex实现快速分析100G大数据量

用Python如何实现海量大数据的快速处理？

数据库中如何实现大量数据快速插入方法

oracle如何快速删除大量数据

plsql如何快速导出大量数据

如何在Python中实现对大数据的快速处理？

如何用mybatis快速插入大量数据？

快速入门 Python 数据分析实用指

Python、Git和大数据：如何快速入门？

springboot+mybatis快速插入大量数据的具体实现

大数据处理中，如何使用Java快速载入大量数据？

MySQL 千万级数据量如何快速分页

如何在PHP中实现大数据分析

NumPy 数组和 Go 函数：如何快速处理大量数据？

Python如何快速实现分列转到行

如何利用Python文件索引快速加载大量数据文件？

大数据报表怎么快速分页呈现

数组操作：如何在Java中实现快速大数据加载？

用Python和Git，如何快速开发大数据应用？

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义