返回顶部
首页 > 资讯 > 后端开发 > Python >Python Vaex如何实现快速分析100G大数据量
  • 103
分享到

Python Vaex如何实现快速分析100G大数据量

Python 2023-05-14 22:05:30 103人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

pandas处理大数据的限制现在的数据科学比赛提供的数据量越来越大,动不动几十个G,甚至上百G,这就要考验机器性能和数据处理能力。python中的pandas是大家常用的数据处理工具,能应付较大数据集(千万行级别),但当数据量达到十亿百亿行

pandas处理大数据的限制

现在的数据科学比赛提供的数据量越来越大,动不动几十个G,甚至上百G,这就要考验机器性能和数据处理能力。

python中的pandas是大家常用的数据处理工具,能应付较大数据集(千万行级别),但当数据量达到十亿百亿行级别,pandas处理起来就有点力不从心了,可以说非常的慢。

这里面会有电脑内存等性能的因素,但pandas本身的数据处理机制(依赖内存)也限制了它处理大数据的能力。

当然pandas可以通过chunk分批读取数据,但是这样的劣势在于数据处理较复杂,而且每一步分析都会消耗内存和时间。

下面用pandas读取3.7个G的数据集(hdf5格式),该数据集共有4列、1亿行,并且计算第一行的平均值。我的电脑CPU是i7-8550U,内存8G,看看这个加载和计算过程需要花费多少时间。

数据集:

Python Vaex如何实现快速分析100G大数据量

使用pandas读取并计算:

Python Vaex如何实现快速分析100G大数据量

看上面的过程,加载数据用了15秒,平均值计算用了3.5秒,总共18.5秒。

这里用的是hdf5文件,hdf5是一种文件存储格式,相比较csv更适合存储大数据量,压缩程度高,而且读取、写入也更快。

换上今天的主角vaex,读取同样的数据,做同样的平均值计算,需要多少时间呢?

使用vaex读取并计算:

Python Vaex如何实现快速分析100G大数据量

文件读取用了9ms,可以忽略不计,平均值计算用了1s,总共1s。

同样是读取1亿行的hdfs数据集,为什么pandas需要十几秒,而vaex耗费时间接近于0呢?

这里主要是因为pandas把数据读取到了内存中,然后用于处理和计算。而vaex只会对数据进行内存映射,而不是真的读取数据到内存中,这个和spark的懒加载是一样的,在使用的时候 才会去加载,声明的时候不加载。

所以说不管加载多大的数据,10GB、100GB...对vaex来说都是瞬间搞定。美中不足的是,vaex的懒加载只支持HDF5, Apache Arrow,Parquet, FITS等文件,不支持csv等文本文件,因为文本文件没办法进行内存映射。

可能有的小伙伴不太理解内存映射,下面放一段解释,具体要弄清楚还得自行摸索:

内存映射是指硬盘上文件的位置与进程逻辑地址空间中一块大小相同的区域之间的一一对应。这种对应关系纯属是逻辑上的概念,物理上是不存在的,原因是进程的逻辑地址空间本身就是不存在的。在内存映射的过程中,并没有实际的数据拷贝,文件没有被载入内存,只是逻辑上被放入了内存,具体到代码,就是建立并初始化了相关的数据结构(struct address_space)。

什么是vaex

前面对比了vaex和pandas处理大数据的速度,vaex优势明显。虽然能力出众,不比pandas家喻户晓,vaex还是个刚出圈的新人。

vaex同样是基于Python的数据处理第三方库,使用pip就可以安装。

官网对vaex的介绍可以总结为三点:

  • vaex是一个用处理、展示数据的数据表工具,类似pandas;

  • vaex采取内存映射、惰性计算,不占用内存,适合处理大数据;

  • vaex可以在百亿级数据集上进行秒级的统计分析和可视化展示;

vaex的优势在于:

  • 性能:处理海量数据,109 行/秒;

  • 惰性:快速计算,不占用内存;

  • 零内存复制:在进行过滤/转换/计算时,不复制内存,在需要时进行流式传输;

  • 可视化:内含可视化组件;

  • api:类似pandas,拥有丰富的数据处理和计算函数;

  • 可交互:配合Jupyter notebook使用,灵活的交互可视化;

安装vaex

使用pip或者conda进行安装:

Python Vaex如何实现快速分析100G大数据量

读取数据

vaex支持读取hdf5、csv、parquet等文件,使用read方法。hdf5可以惰性读取,而csv只能读到内存中。

Python Vaex如何实现快速分析100G大数据量

vaex数据读取函数:

Python Vaex如何实现快速分析100G大数据量

数据处理

有时候我们需要对数据进行各种各样的转换、筛选、计算等,pandas的每一步处理都会消耗内存,而且时间成本高。除非说使用链式处理,但那样过程就很不清晰。

vaex则全过程都是零内存。因为它的处理过程仅仅产生expression(表达式),表达式是逻辑表示,不会执行,只有到了最后的生成结果阶段才会执行。而且整个过程数据是流式传输,不会产生内存积压。

Python Vaex如何实现快速分析100G大数据量

可以看到上面有筛选和计算两个过程,都没有复制内存,这里采用了延迟计算,也就是惰性机制。如果每个过程都真实计算,消耗内存不说,单是时间成本就很大。

vaex的统计计算函数:

Python Vaex如何实现快速分析100G大数据量

可视化展示

vaex还可以进行快速可视化展示,即便是上百亿的数据集,依然能秒出图。

Python Vaex如何实现快速分析100G大数据量

vaex可视化函数:

Python Vaex如何实现快速分析100G大数据量

结论

vaex有点类似spark和pandas的结合体,数据量越大越能体现它的优势。只要你的硬盘能装下多大数据,它就能快速分析这些数据。

vaex还在快速发展中,集成了越来越多pandas的功能,它在GitHub上的star数是5k,成长潜力巨大。

附:hdf5数据集生成代码(4列1亿行数据)

import pandas as pd
import vaex
df = pd.DataFrame(np.random.rand(100000000,4),columns=['col_1','col_2','col_3','col_4'])
df.to_csv('example.csv',index=False)
vaex.read('example.csv',convert='example1.hdf5')

注意这里不要用pandas直接生成hdf5,其格式会与vaex不兼容。

以上就是Python Vaex如何实现快速分析100G大数据量的详细内容,更多请关注编程网其它相关文章!

--结束END--

本文标题: Python Vaex如何实现快速分析100G大数据量

本文链接: https://lsjlt.com/news/206305.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python Vaex如何实现快速分析100G大数据量
    pandas处理大数据的限制现在的数据科学比赛提供的数据量越来越大,动不动几十个G,甚至上百G,这就要考验机器性能和数据处理能力。Python中的pandas是大家常用的数据处理工具,能应付较大数据集(千万行级别),但当数据量达到十亿百亿行...
    99+
    2023-05-14
    Python
  • PythonVaex实现快速分析100G大数据量
    目录pandas处理大数据的限制什么是vaex安装vaex读取数据数据处理可视化展示结论pandas处理大数据的限制 现在的数据科学比赛提供的数据量越来越大,动不动几十个G,甚至上百...
    99+
    2023-03-14
    Python Vaex分析100G大数据量 Vaex分析100G大数据量 Python Vaex分析大数据量
  • 用Python如何实现海量大数据的快速处理?
    随着大数据时代的到来,数据的规模和复杂度也在不断增加。如何快速、高效地处理这些海量数据,成为了很多企业和个人所面临的问题。Python作为一门高效、易学的编程语言,在海量数据处理方面也具有很大的优势。本文将详细介绍如何使用Python实现海...
    99+
    2023-09-11
    二维码 大数据 数组
  • 数据库中如何实现大量数据快速插入方法
    这篇文章将为大家详细讲解有关数据库中如何实现大量数据快速插入方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1     ...
    99+
    2024-04-02
  • oracle如何快速删除大量数据
    要在Oracle中快速删除大量数据,可以尝试以下方法:1. 使用TRUNCATE语句:TRUNCATE语句可以快速删除表中的所有数据...
    99+
    2023-10-08
    oracle
  • plsql如何快速导出大量数据
    要快速导出大量数据,你可以使用PL/SQL中的批量绑定和游标技术。以下是一种常见的方法:1. 创建一个游标,用于查询要导出的数据。例...
    99+
    2023-08-31
    plsql
  • 如何在Python中实现对大数据的快速处理?
    Python是一种高级编程语言,它在数据科学和机器学习领域中被广泛使用。当我们需要处理大数据时,Python中有许多方法可以帮助我们进行快速处理。在本文中,我们将介绍如何在Python中实现对大数据的快速处理,并附上演示代码。 使用Num...
    99+
    2023-11-06
    leetcode 大数据 关键字
  • 如何用mybatis快速插入大量数据?
    在公司业务开发过程中,经常会遇到需要往数据库表中插入大量数据的一个场景,如excel批量导入数据,如何快速的去插入数据呢,可以考虑使用批量插入(实测每秒能达到35000条,后附具体代码) JDBC实现方式: 用一个 for 循环,把数据一...
    99+
    2023-09-25
    mybatis java spring boot mysql
  • 快速入门 Python 数据分析实用指
    Python 现如今已成为数据分析和数据科学使用上的标准语言和标准平台之一。那么作为一个新手小白,该如何快速入门 Python 数据分析呢? 下面根据数据分析的一般工作流程,梳理了相关知识技能以及学习指南。 数据分析一般工作流程如下: ...
    99+
    2023-01-31
    入门 快速 数据
  • Python、Git和大数据:如何快速入门?
    Python、Git和大数据是现代计算机科学中非常重要的概念。Python是一种高级编程语言,被广泛用于数据科学、机器学习、人工智能等领域。Git是一种版本控制系统,被广泛用于软件开发和团队协作。大数据是指数据集合过大,无法使用传统数据处...
    99+
    2023-10-13
    git 大数据 numy
  • springboot+mybatis快速插入大量数据的具体实现
    目录前言一. JDBC实现方案第一种方案,是用 for语句循环插入:第二种方案,是生成一条 SQL进行插入:二. 具体实现思路三. 代码实现1.导入依赖2.创建启动类3.配...
    99+
    2023-05-16
    springboot mybatis批量insert spring mybatis批量新增 mybatis springboot 批量新增
  • 大数据处理中,如何使用Java快速载入大量数据?
    在当今的信息时代中,数据的规模越来越庞大,如何处理这些大量数据成为了一个亟待解决的问题。而Java作为一门高效的编程语言,可以为我们提供快速载入大量数据的解决方案。本篇文章将为您介绍如何使用Java来处理大数据。 一、Java对于大数据处理...
    99+
    2023-06-26
    load 大数据 数组
  • MySQL 千万级数据量如何快速分页
    前言 后端开发中为了防止一次性加载太多数据导致内存、磁盘IO都开销过大,经常需要分页展示,这个时候就需要用到MySQL的LIMIT关键字。但你以为LIMIT分页就万事大吉了么,Too young,too simple...
    99+
    2022-05-16
    MySQL 快速分页 MySQL 分页 MySQL 千万级数据分页
  • 如何在PHP中实现大数据分析
    随着互联网和信息技术的发展,数据已经成为了企业和组织重要的生产资源。而如何进行有效的数据分析已经成为企业决策的重要课题。PHP语言作为一种广泛使用的Web编程语言,也可以用来实现大数据分析。本文将介绍如何在PHP中实现大数据分析,包括以下几...
    99+
    2023-05-20
    大数据 分析 PHP
  • NumPy 数组和 Go 函数:如何快速处理大量数据?
    随着数据量的不断增加,如何高效地处理数据成为了数据科学家们必须面对的问题。在处理大量数据时,我们需要考虑数据的存储、处理速度和内存占用等方面的问题。本文将介绍两种处理大量数据的方法:使用 NumPy 数组和使用 Go 函数。 NumPy ...
    99+
    2023-09-23
    数组 函数 numy
  • Python如何快速实现分列转到行
    这篇“Python如何快速实现分列转到行”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python如何快速实现分列转到行”文...
    99+
    2023-07-05
  • 如何利用Python文件索引快速加载大量数据文件?
    在现代数据分析和机器学习中,经常需要处理大量的数据文件。如何快速加载这些数据文件是一个非常重要的问题。Python提供了多种方法来读取和处理大量数据文件,例如使用Pandas库或者使用Python内置的文件读取方法。然而,当数据文件数量非...
    99+
    2023-09-28
    文件 索引 load
  • 大数据报表怎么快速分页呈现
    今天就跟大家聊聊有关大数据报表怎么快速分页呈现,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。在说明这个问题的处理方法前,先了解下是什么原因导致的大数据量报表呈现慢的问题。一般不外乎这...
    99+
    2023-06-03
  • 数组操作:如何在Java中实现快速大数据加载?
    数组是一种常见的数据结构,它可以在Java中很方便地实现。然而,当数据量非常大时,数组的加载和处理可能会变得非常缓慢。在这篇文章中,我们将介绍如何在Java中实现快速大数据加载。 一、使用BufferedReader和FileReader ...
    99+
    2023-06-26
    load 大数据 数组
  • 用Python和Git,如何快速开发大数据应用?
    随着大数据时代的到来,越来越多的企业开始关注如何高效地处理海量数据。对于开发人员而言,快速开发大数据应用是一项非常重要的技能。在本文中,我们将介绍如何使用Python和Git来快速开发大数据应用。 一、Python Python是一种强大的...
    99+
    2023-08-18
    git django 大数据
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作