首页 > 资讯 > 后端开发 > Python >Python Pandas模块实现数据的统计分析的方法

290

分享到

Python Pandas模块实现数据的统计分析的方法

Pandas模块实现数据的统计分析 Python pandas 2022-06-02 22:06:11 290人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

一、groupby函数 python中的groupby函数，它主要的作用是进行数据的分组以及分组之后的组内的运算，也可以用来探索各组之间的关系，首先我们导入我们需要用到的模块 import pandas as p

一、groupby函数

python中的groupby函数，它主要的作用是进行数据的分组以及分组之后的组内的运算，也可以用来探索各组之间的关系，首先我们导入我们需要用到的模块


import pandas as pd

首先导入我们所需要用到的数据集


customer = pd.read_csv("Churn_Modelling.csv")
marketing = pd.read_csv("DirectMarketing.csv")

我们先从一个简单的例子着手来看，


customer[['Geography','Gender','EstimatedSalary']].groupby(['Geography','Gender']).mean()

从上面的结果可以得知，在“法国”这一类当中的“女性(Female)”这一类的预估工资的平均值达到了99564欧元，“男性”达到了100174欧元

当然除了求平均数之外，我们还有其他的统计方式，比如“count”、“min”、“max”等等，例如下面的代码


customer[['Geography','Gender','EstimatedSalary']].groupby(['Geography','Gender']).agg(['mean','count','max'])

当然我们也可以对不同的列采取不同的统计方式方法，例如


customer[['Geography','EstimatedSalary','Balance']].groupby('Geography').agg({'EstimatedSalary':'sum', 'Balance':'mean'})

我们对“EstimatedSalary”这一列做了加总的操作，而对“Balance”这一列做了求平均值的操作

二、Crosstab函数

在处理数据时，经常需要对数据分组计算均值或者计数，在Microsoft excel中，可以通过透视表轻易实现简单的分组运算。而对于更加复杂的分组计算，“Pandas”模块中的“Crosstab”函数也能够帮助我们实现。

例如我们想要计算不同年龄阶段、不同性别的平均工资，同时保留一位小数，代码如下


pd.crosstab(index=marketing.Age, columns=marketing.Gender, values=marketing.Salary, aggfunc='mean').round(1)

当然我们还可以用该函数来制作一个更加复杂一点的透视表，例如下面的代码


pd.crosstab(index=[marketing.Age, marketing.Married], columns=marketing.Gender,values=marketing.Salary, aggfunc='mean', margins=True).round(1)

三、Pivot_table函数

和上面的“Cross_tab”函数的功能相类似，对于数据透视表而言，由于它的灵活性高，可以随意定制你的分析计算要求，而且操作性强，因此在实际的工作生活当中被广泛使用，

例如下面的代码，参数“margins”对应表格当中的“All”这一列


pd.pivot_table(data=marketing, index=['Age', 'Married'], columns='Gender', values='Salary', aggfunc='mean', margins=True).round(1)

四、Sidetable函数

“Sidetable”可以被理解为是“Pandas”模块中的第三方的插件，它集合了制作透视表以及对数据集做统计分析等功能，让我们来实际操作一下吧

首先我们要下载安装这个“Sidetable”组件，


pip install sidetable

五、Freq函数

首先介绍的是“Sidetable”插件当中的“Freq”函数，里面包含了离散值每个类型的数量，其中是有百分比形式来呈现以及数字的形式来呈现，还有离散值每个类型的累加总和的呈现，具体大家看下面的代码和例子


import sidetable
marketing.stb.freq(['Age'])

“Age”这一列有三大类分别是“Middle”、“Young”以及“Old”的数据，例如我们看到表格当中的“Middle”这一列的数量有508个，占比有50.8%


marketing.stb.freq(['Age'], value='AmountSpent')

例如上面的代码，显示的则是比方说当“Age”是“Middle”的时候，也就是中年群体，“AmountSpent”的总和，也就是花费的总和是762859元

六、Missing函数

“Sidetable”函数当中的“Missing”方法顾名思义就是返回缺失值的数量以及百分比，例如下面的代码,“History”这一列的缺失值占到了30.3%


marketing.stb.missing()

七、Counts函数

“Sidetable”函数当中的“counts”方法用来计算各个类型的离散值出现的数量，具体看下面的例子


marketing.stb.counts()

例如“Gender”这一列中，总共有两个，也就是“unique”这一列所代表的值，其中“Female”占到的比重更大，有506个，而“Male”占到的比重更小一些，有494个

到此这篇关于Python Pandas模块实现数据的统计分析的方法的文章就介绍到这了,更多相关Pandas模块实现数据的统计分析内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: Python Pandas模块实现数据的统计分析的方法

本文链接: https://lsjlt.com/news/11027.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python Pandas模块实现数据的统计分析的方法

一、groupby函数 Python中的groupby函数，它主要的作用是进行数据的分组以及分组之后的组内的运算，也可以用来探索各组之间的关系，首先我们导入我们需要用到的模块 import pandas as p...

99+

2022-06-02

Pandas模块实现数据的统计分析 Python pandas
Pandas数据集的分块读取的实现

目录一、直接用分块方式读取数据集文件（更直接）二、先将数据集读取为可迭代对象，再分块读取（更灵活）总结所谓“分块”，顾名思义，就是将数据集分成几块进行读取，比...

99+

2024-04-02
Python中的pandas表格模块、文件模块和数据库模块

目录一、Series数据结构1、Series的创建2、Series属性2、Series缺失数据处理二、DataFrame数据结构1、DataFrame的创建2、DataFrame属性...

99+

2024-04-02
Python数据分析Pandas Dataframe排序操作的方法

本文小编为大家详细介绍“Python数据分析Pandas Dataframe排序操作的方法”，内容详细，步骤清晰，细节处理妥当，希望这篇“Python数据分析Pandas Dataframe排序操作的方法”文章能帮助大家...

99+

2023-06-30
Python的Pandas时序数据实例分析

这篇文章主要讲解了“Python的Pandas时序数据实例分析”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python的Pandas时序数据实例分析”吧！Pandas时序数据前言在数据分...

99+

2023-06-29
Python利用Pandas进行数据分析的方法详解

本篇文章给大家带来了关于Python的相关知识，其中Pandas是最流行的用于数据分析的 Python 库。它提供高度优化的性能。本文将利用Python进行数据分析，下面一起来看一下，希望对大家有帮助。【相关推荐：Python3视频教程】...

99+

2024-04-02
Pandas实现groupby分组统计的实践

目录1、创建数据和导入包2、分组使用聚合函数做数据统计3、遍历groupby的结果理解执行流程4、实例分组探索天气数据类似SQL：select city,max(tempe...

99+

2024-04-02
Python Pandas中的数据结构实例分析

今天小编给大家分享一下Python Pandas中的数据结构实例分析的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。...

99+

2023-07-02
使用pandas模块实现数据的标准化操作

如下所示： 3σ 原则 (u-3*σ ,u+3*σ ) ...

99+

2024-04-02
怎么实现Java模块化系统的分析

这篇文章给大家介绍怎么实现Java模块化系统的分析，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。Java 模块化系统自提出以来经历了很长的时间，直到 2014 年晚些时候才最终以 JSR（JSR-376）定稿，而且这...

99+

2023-06-17
Python计算均值、方差、标准差、协方差等常用指标的方法——Numpy模块+Pandas模块

Python计算均值、方差、标准差、协方差等常用指标的方法——Numpy模块+Pandas模块一、利用Numpy模块计算均值、方差、标准差等二、利用Numpy模块计算均值、方差、标准差等 ...

99+

2023-10-26

python numpy 均值算法
优化pandas数据分析的技巧和方法

提高数据分析效率的pandas技巧与窍门引言在现代数据分析领域，pandas是一种非常广泛使用的Python库。它提供了高效、灵活和丰富的数据结构和数据处理工具，使得数据分析变得更加简单和高效。然而，要想真正发挥pandas...

99+

2024-01-13

数据清洗数据聚合数据转换
python中pandas对多列进行分组统计的实现

使用groupby([ ]).size()统计的结果，值相同的字段值会不显示如上图所示，第一个空着的行是982499 7 3388 1，因为此行与前面一行的这两个字段值是一样...

99+

2024-04-02
PHP中使用Redis实现统计数据的分析

随着互联网应用的不断发展，数据分析和统计成为了应用开发中的重要一环。在Web应用开发中，为获取实时的统计数据，往往需要从众多的数据来源和不同的应用系统中读取数据，然后进行分析、汇总和展示。此时，Redis作为一个持久化的内存数据库，为数据...

99+

2023-05-15

PHP redis 统计数据分析
Python数据分析之Pandas Dataframe条件筛选遍历的方法

这篇文章主要介绍“Python数据分析之Pandas Dataframe条件筛选遍历的方法”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“Python数据分析之Pandas Dat...

99+

2023-06-30
分析设计模式之模板方法Java实现

目录一、什么是模板方法设计模式1.1、模板方法的用途1.2、模板方法的定义二、定义模板方法的步骤2.1、定义模板类2.2、定义具体子类2.3、定义客户端调用2.4 下抽象类和子类之间...

99+

2024-04-02
怎么在Python中使用pandas实现数据分析

怎么在Python中使用pandas实现数据分析？很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。一、比较运算符和比较方法比较运算符用于判断是否相等和比较大小，Py...

99+

2023-06-15
Python Pandas数据结构的示例分析

这篇文章将为大家详细讲解有关Python Pandas数据结构的示例分析，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。1 Pandas介绍2008年WesMcKinney开发出的库专门用于数据挖...

99+

2023-06-29
Python实现多进程共享数据的方法分析

本文实例讲述了Python实现多进程共享数据的方法。分享给大家供大家参考，具体如下：示例一： # -*- coding:utf-8 -*- from multiprocessing import Pr...

99+

2022-06-04

进程方法数据
怎么在Python中使用pandas函数实现数据分析

本篇文章给大家分享的是有关怎么在Python中使用pandas函数实现数据分析，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。python有哪些常用库python常用的库：1.r...

99+

2023-06-14