首页 > 资讯 > 后端开发 > Python >python数据分析之DataFrame内存优化

963

分享到

python数据分析之DataFrame内存优化

python DataFrame内存优化 python DataFrame优化 2022-06-02 22:06:58 963人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

目录1. pandas查看数据占用大小2. 对数据进行压缩3. 参考资料💃今天看案例的时候看见了一个关于pandas数据的内存压缩功能，特地来记录一下。 🎒先说明一下情况，pandas

1. pandas查看数据占用大小

给大家看一下这么查看自己的内存大小（user_log是dataframe的名字）


#方法1 就是使用查看dataframe信息的命令
user_log.info()
#方法2 使用memory_usage()或者getsizeof(user_log)
import time
import sys
print('all_data占据内存约: {:.2f} GB'.fORMat(user_log.memory_usage().sum()/ (1024**3)))
print('all_data占据内存约: {:.2f} GB'.format(sys.getsizeof(user_log)/(1024**3)))

我这里有个dataframe文件叫做user_log，原始大小为1.91G，然后pandas读取出来，内存使用了2.9G。

看一下原始数据大小：1.91G

在这里插入图片描述

pandas读取后的内存消耗：2.9G

在这里插入图片描述

2. 对数据进行压缩

数值类型的列进行降级处理（‘int16', ‘int32', ‘int64', ‘float16', ‘float32', ‘float64'）
字符串类型的列转化为类别类型（cateGory）
字符串类型的列的类别数超过总行数的一半时，建议使用object类型

我们这里主要采用对数值型类型的数据进行降级，说一下降级是什么意思意思呢，可以比喻为一个一个抽屉，你有一个大抽屉，但是你只装了钥匙，这就会有很多空间浪费掉，如果我们将钥匙放到一个小抽屉里，就可以节省很多空间，就像字符的类型int32 比int8占用空间大很多，但是我们的数据使用int8类型就够了，这就导致数据占用了很多空间，我们要做的就是进行数据类型转换，节省内存空间。

压缩数值的这段代码是从天池大赛的某个项目中看见的，查阅资料后发现，大家压缩内存都是基本固定的函数形式


def reduce_mem_usage(df):
    starttime = time.time()
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024**2
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if pd.isnull(c_min) or pd.isnull(c_max):
                continue
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
    end_mem = df.memory_usage().sum() / 1024**2
    print('-- Mem. usage decreased to {:5.2f} Mb ({:.1f}% reduction),time spend:{:2.2f} min'.format(end_mem,
                                                                                                           100*(start_mem-end_mem)/start_mem,
                                                                                                           (time.time()-starttime)/60))
    return df

用压缩的方式将数据导入user_log2中


#首先读取到csv中如何传入函数生称新的csv
user_log2=reduce_mem_usage(pd.read_csv(r'/Users/liucong/MainFiles/ML/tianchi/tianmiao/user_log_format1.csv'))

读取成功：内训大小为890.48m 减少了69.6%，效果显著

在这里插入图片描述

查看压缩后的数据集信息：类型发生了变化，数量变小了

在这里插入图片描述

3. 参考资料

《天池大赛》
《kaggle大赛》
链接: pandas处理datafarme节约内存.

到此这篇关于python数据分析之DataFrame内存优化的文章就介绍到这了,更多相关Python DataFrame内存优化内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: python数据分析之DataFrame内存优化

本文链接: https://lsjlt.com/news/11116.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

python数据分析之DataFrame内存优化

目录

1. pandas查看数据占用大小

2. 对数据进行压缩

3. 参考资料

python数据分析之DataFrame内存优化

Android性能优化之内存优化的示例分析

Python数据分析之 Pandas Dataframe应用自定义

Python数据分析之Pandas Dataframe如何自定义

Python数据分析之 Pandas Dataframe合并和去重操作

Python数据分析之Pandas Dataframe怎么合并和去重

Android内存优化之内存缓存

Python数据分析之Matplotlib数据可视化

Python数据分析Pandas Dataframe排序操作

Python数据分析之 Pandas Dataframe条件筛选遍历详情

android内存优化之图片优化

Golang函数性能优化之内存对齐优化

Python数据分析之Pandas Dataframe怎么修改、删除及查询

Python数据分析之Pandas Dataframe条件筛选遍历的方法

如何分析SAP内存优化配置

MySQL数据库性能优化之SQL优化的示例分析

Android性能优化之JVMTI与内存分配

解析Android开发优化之:对Bitmap的内存优化详解

Python数据分析之 Pandas Dataframe修改和删除及查询操作

怎么用python分析游戏内存数据

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义