Pandas 稀疏数据结构的实现

2024-04-02 19:04:59 329人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录简介Spare data的例子SparseArraySparseDtypeSparse的属性Sparse的计算SparseSeries 和 SparseDataFrame简介

简介

如果数据中有很多NaN的值，存储起来就会浪费空间。为了解决这个问题，pandas引入了一种叫做Sparse data的结构，来有效的存储这些NaN的值。

Spare data的例子

我们创建一个数组，然后将其大部分数据设置为NaN，接着使用这个数组来创建SparseArray：


In [1]: arr = np.random.randn(10)

In [2]: arr[2:-2] = np.nan

In [3]: ts = pd.Series(pd.arrays.SparseArray(arr))

In [4]: ts
Out[4]: 
0    0.469112
1   -0.282863
2         NaN
3         NaN
4         NaN
5         NaN
6         NaN
7         NaN
8   -0.861849
9   -2.104569
dtype: Sparse[float64, nan]

这里的dtype类型是Sparse[float64, nan]，它的意思是数组中的nan实际上并没有存储，只有非nan的数据才被存储，并且这些数据的类型是float64.

SparseArray

arrays.SparseArray 是一个 ExtensionArray ，用来存储稀疏的数组类型。


In [13]: arr = np.random.randn(10)

In [14]: arr[2:5] = np.nan

In [15]: arr[7:8] = np.nan

In [16]: sparr = pd.arrays.SparseArray(arr)

In [17]: sparr
Out[17]: 
[-1.9556635297215477, -1.6588664275960427, nan, nan, nan, 1.1589328886422277, 0.14529711373305043, nan, 0.6060271905134522, 1.3342113401317768]
Fill: nan
IntIndex
Indices: array([0, 1, 5, 6, 8, 9], dtype=int32)

使用 numpy.asarray() 可以将其转换为普通的数组：


In [18]: np.asarray(sparr)
Out[18]: 
array([-1.9557, -1.6589,     nan,     nan,     nan,  1.1589,  0.1453,
           nan,  0.606 ,  1.3342])

SparseDtype

SparseDtype 表示的是Spare类型。它包含两种信息，第一种是非NaN值的数据类型，第二种是填充时候的常量值，比如nan：


In [19]: sparr.dtype
Out[19]: Sparse[float64, nan]

可以像下面这样构造一个SparseDtype：


In [20]: pd.SparseDtype(np.dtype('datetime64[ns]'))
Out[20]: Sparse[datetime64[ns], NaT]

可以指定填充的值：


In [21]: pd.SparseDtype(np.dtype('datetime64[ns]'),
   ....:                fill_value=pd.Timestamp('2017-01-01'))
   ....: 
Out[21]: Sparse[datetime64[ns], Timestamp('2017-01-01 00:00:00')]

Sparse的属性

可以通过 .sparse 来访问sparse：


In [23]: s = pd.Series([0, 0, 1, 2], dtype="Sparse[int]")

In [24]: s.sparse.density
Out[24]: 0.5

In [25]: s.sparse.fill_value
Out[25]: 0

Sparse的计算

np的计算函数可以直接用在SparseArray中，并且会返回一个SparseArray。


In [26]: arr = pd.arrays.SparseArray([1., np.nan, np.nan, -2., np.nan])

In [27]: np.abs(arr)
Out[27]: 
[1.0, nan, nan, 2.0, nan]
Fill: nan
IntIndex
Indices: array([0, 3], dtype=int32)

SparseSeries 和 SparseDataFrame

SparseSeries 和 SparseDataFrame在1.0.0 的版本时候被删除了。取代他们的是功能更强的SparseArray。
看下两者的使用上的区别：


# Previous way
>>> pd.SparseDataFrame({"A": [0, 1]})


# New way
In [31]: pd.DataFrame({"A": pd.arrays.SparseArray([0, 1])})
Out[31]: 
   A
0  0
1  1

如果是SciPy 中的sparse 矩阵，那么可以使用 DataFrame.sparse.from_spmatrix() ：


# Previous way
>>> from scipy import sparse
>>> mat = sparse.eye(3)
>>> df = pd.SparseDataFrame(mat, columns=['A', 'B', 'C'])


# New way
In [32]: from scipy import sparse

In [33]: mat = sparse.eye(3)

In [34]: df = pd.DataFrame.sparse.from_spmatrix(mat, columns=['A', 'B', 'C'])

In [35]: df.dtypes
Out[35]: 
A    Sparse[float64, 0]
B    Sparse[float64, 0]
C    Sparse[float64, 0]
dtype: object

到此这篇关于Pandas 稀疏数据结构的实现的文章就介绍到这了,更多相关Pandas 稀疏数据结构内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: Pandas 稀疏数据结构的实现

本文链接: https://lsjlt.com/news/130982.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Pandas 稀疏数据结构的实现

目录简介Spare data的例子SparseArraySparseDtypeSparse的属性Sparse的计算SparseSeries 和 SparseDataFrame简介 ...

99+

2024-04-02
java数据结构中稀疏数组的实现方法

这篇文章主要讲解了“java数据结构中稀疏数组的实现方法”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“java数据结构中稀疏数组的实现方法”吧！目录稀疏数组：实现思路：举例：二维数组转稀疏数...

99+

2023-06-20
Java数据结构之稀疏数组的实现与应用

目录1.稀疏数组引入1.1 使用场景1.2 稀疏数组简介2.稀疏数组的实现2.1 案例概述2.2 思路分析2.3 代码实现1.稀疏数组引入 1.1 使用场景笔者在课程设计中曾写过一...

99+

2022-11-13

Java 数据结构稀疏数组 Java 稀疏数组
java数据结构基础:稀疏数组

目录稀疏数组：实现思路：举例：二维数组转稀疏数组实现思路：稀疏数组恢复二维数组实现思路：代码实现：输出结果：总结稀疏数组：当一个二维数组中大部份的值为0，或者为同一值的时候，可以用...

99+

2024-04-02
golang数据结构之golang稀疏数组sparsearray详解

目录一、稀疏数组1. 先看一个实际的需求2. 基本介绍3. 应用实例一、稀疏数组 1. 先看一个实际的需求编写的五子棋程序中，有存盘退出和续上盘的功能分析按照原始的方式来的二维...

99+

2024-04-02
浅谈Java数据结构之稀疏数组知识总结

稀疏数组当一个数组中的元素大多为0或者相同元素的时候，可以用稀疏数组来压缩稀疏数组只记录行row 列col 值value 将下列的二维数组转为稀疏数组,如下...

99+

2024-04-02
Java数据结构实现二维数组与稀疏数组转换详解

基本介绍当一个数组中大部分元素为0，或者为同一个值的数组时，可以使用稀疏数组来保存该数组。稀疏数组的处理方法是: ①记录数组一共有几行几列，有多少个不同的值（0除外）。 ②把具有...

99+

2024-04-02
java数据结构算法稀疏数组示例详解

目录一、什么是稀疏数组二、场景用法1.二维数组转稀疏数组思路2.稀疏数组转二维数组思路3.代码实现一、什么是稀疏数组当一个数组a中大部分元素为0，或者为同一个值，那么可以用稀疏数组...

99+

2024-04-02
scipy稀疏数组coo_array的实现

目录coo_array初始化方案内置方法coo_array coo也被称为ijv，是一种三元组格式，对于矩阵中第i ii行第j jj列的值v vv，将其存储为( i , j , v ...

99+

2023-02-21

scipy稀疏数组coo_array scipy稀疏数组
numpy稀疏矩阵的实现

目录1. coo存储方式2. dok_matrix3. csr和csc存储方式4. lil_matrix5. dia_matrix6. 稀疏矩阵经验1. coo存储方式采用三元组(...

99+

2024-04-02
scipy稀疏数组coo_array如何实现

这篇文章主要讲解了“scipy稀疏数组coo_array如何实现”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“scipy稀疏数组coo_array如何实现”吧！coo_arraycoo也被称...

99+

2023-07-05
Java数据结构与算法之稀疏数组与队列深入理解

目录一、数据结构和算法简介二、稀疏数组稀疏数组的应用实例二维数组与稀疏数组的转换二维数组转稀疏数组的思路稀疏数组转原始的二维数组的思路三、队列数组模拟队列代码优化：数组模拟环...

99+

2024-04-02
Java实现二维数组和稀疏数组之间的转换

目录前言 1. 需求和思路分析 2.代码实现和展示 3. 总结参考视频前言用Java实现二维数据和稀疏数组之间的转换 1. 需求和思路分析 1.1 以二维数组的格式模拟棋盘、...

99+

2024-04-02
Java轻松实现二维数组与稀疏数组互转

目录二维数组稀疏数组1、稀疏算法的基本介绍2、稀疏算法的处理方式二维数组转稀疏数组的思路二维数组二维数组本质上是以数组作为数组元素的数组，即“数组的数组”，...

99+

2024-04-02
Java如何实现二维数组与稀疏数组互转

这篇文章主要介绍了Java如何实现二维数组与稀疏数组互转的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Java如何实现二维数组与稀疏数组互转文章都会有所收获，下面我们一起来看看吧。二维数组二维数组本质上是以数组...

99+

2023-06-29
Python Pandas中的数据结构实例分析

今天小编给大家分享一下Python Pandas中的数据结构实例分析的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。...

99+

2023-07-02
pandas知识点（数据结构）

1.Series 生成一维数组，左边索引，右边值： In [3]: obj = Series([1,2,3,4,5]) In [4]: obj Out[4]: 0 1 1 2 2 3 3 4 4 5 dt...

99+

2023-01-30

数据结构知识点 pandas
Pandas数据结构之Series的使用

目录一. Series 简介二. 实例化 Series2.1 使用一维数组实例化2.2 使用字典实例化2.3 使用标量例化三.Series 简单使用3.1 为Series添加Name...

99+

2024-04-02
Python Pandas 中的数据结构详解

目录1.Series1.1通过列表创建Series1.2通过字典创建Series2.DataFrame3.索引对象 4.查看DataFrame的常用属性前言： Pandas...

99+

2024-04-02
Python实现两种稀疏矩阵的最小二乘法

目录最小二乘法返回值测试最小二乘法 scipy.sparse.linalg实现了两种稀疏矩阵最小二乘法lsqr和lsmr，前者是经典算法，后者来自斯坦福优化实验室，据称可以比lsqr...

99+

2023-02-26

Python稀疏矩阵最小二乘法 Python稀疏矩阵 Python 最小二乘法