首页 > 资讯 > 后端开发 > Python >Python学习——数据分组统计、分组运算及透视

189

分享到

Python学习——数据分组统计、分组运算及透视

python 学习 2023-09-01 05:09:30 189人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

目录 1 数据分组统计 groupby1.1 按照单列进行分组统计df.groupby('列名').count()1.2 按照多列进行分组统计 df.groupby(['列名1','列名2']

1 数据分组统计 groupby

分割 split: 按照键值（key）或者分组变量将数据分组
应用 apply: 对每个组应用函数, 通常是累计,转换或过滤函数
组合 combine: 将每一组的结果合并成一个输出组

常用功能

1. len(gp1) #组数2. gp1.size() #每组的记录个数3. df3.groupby(["小组","评级"])  #得到的结果是一个groupby对象4. gp1.mean()  #每组组内的平均值，还有sum、max、min、count5. apply #自定义统计函数（自己定义一个函数,作为参数，会自动将函数应用到每一组数据当中去）

1.1 按照单列进行分组统计df.groupby(‘列名’).count()

# 创建示例DataFramedata = {'班级': ['一班', '一班','一班','二班', '二班','二班','三班','三班','三班'],        '科目': ['物理', '化学', '生物','物理', '化学', '生物','物理', '化学', '生物'],        '数量': [17, 29, 18,37,48,32,17, 29, 18],        '分数': [87, 89, 88,77,98,82,97, 89, 78]}df = pd.DataFrame(data)

在这里插入图片描述

# 创建示例DataFramedata = {'班级': ['一班', '一班','一班','二班', '二班','二班','三班','三班','三班'],        '科目': ['物理','生物','生物','物理', '物理', '生物','化学', '化学', '生物'],        '姓名': ['张三', '章中', '贺天','紫瞳','西德','魏斯','明峰', '希方', '塞法'],        '分数': [87, 89, 88,77,98,82,97, 89, 78]}df = pd.DataFrame(data)#实现组内排序，排序的时候，科目作为第一排序依据，用来排序的数值字段（分数）作为第二排序依据df.sort_values(['科目','分数'],ascending=[False,True]).groupby('科目').head(3)

在这里插入图片描述

1.2 按照多列进行分组统计 df.groupby([‘列名1’,‘列名2’]).count()

# 创建示例DataFramedata = {'班级': ['一班', '一班','一班','二班', '二班','二班','三班','三班','三班'],        '科目': ['物理','生物','生物','物理', '物理', '生物','化学', '化学', '生物'],        '姓名': ['张三', '章中', '贺天','紫瞳','西德','魏斯','明峰', '希方', '塞法'],        '分数': [87, 89, 88,77,98,82,97, 89, 78]}df = pd.DataFrame(data)#按照科目、班级进行分组求平均df[['科目','班级','分数']].groupby(['科目','班级']).mean()

在这里插入图片描述

1.3 分组填充缺失值 df.groupby(‘需填充列名’).apply(lambda x:x.fillna(x.mean()))

# 创建示例DataFramedata = {'年级': ['1', '1','1','2', '2','3','3','3','3'],        '姓名': ['张三', '章中', '贺天','紫瞳','西德','魏斯','明峰', '希方', '塞法'],        '年龄': [17, 19, np.NaN,18,np.NaN,15,18, 18,np.NaN ]}df = pd.DataFrame(data)df

在这里插入图片描述

#按照年级分组填充缺失的年龄df.groupby('年级').apply(lambda x:x.fillna(x.mean()))

在这里插入图片描述
新增加一列年龄ew 将填充后的年龄补充上去

2 分组运算 agg

数据聚合（agg）：一般指的是能够从数组产生的标量值的数据转换过程，常见的聚合运算都有相关的统计函数快速实现，也可以自定义聚合运算。

2.1 传入标准函数 df.groupby(‘班级’).agg(np.sum)

data = {'班级': ['一班', '一班','一班','二班', '二班','二班','三班','三班','三班'],        '科目': ['物理', '化学', '生物','物理', '化学', '生物','物理', '化学', '生物'],        '数量': [17, 29, 18,37,48,32,17, 29, 18],        '分数': [87, 89, 88,77,98,82,97, 89, 78]}df = pd.DataFrame(data)#数值列按照分组标准快速聚合df.groupby('班级').agg(np.sum)

在这里插入图片描述

2.2 不同的列不同的聚合函数 df.groupby(‘班级’).agg({‘数量’:np.sum,‘分数’:np.mean})

#不同的列传入不同的函数mappping = {'数量':np.sum,'分数':np.mean}df.groupby('班级').agg(mappping)

在这里插入图片描述

2.3 自定义函数

#求针对各科目最高分数与最低分数之间的差值def cha(x):    return x.max() - x.min()df[['科目','分数']].groupby('科目').agg([cha])

在这里插入图片描述

2.4 调用多个聚合函数

df[['班级','分数']].groupby('班级').agg([np.max,np.min,np.mean])

在这里插入图片描述

3 数据透视表

3.1 透视表 pivot_table

透视表(pivot table)： 透视表指根据一个或多个键值对数据进行聚合，根据行或列的分组键将数据划分到各个区域中

#pivot_table 其实就是将groupby封装起来了df[['班级','分数']].pivot_table(index = ['班级']) #先按照班级分组，再求mean

在这里插入图片描述

data = {'班级': ['一班', '一班','一班','二班', '二班','二班','三班','三班','三班'],        '科目': ['物理', '化学', '生物','物理', '化学', '生物','物理', '化学', '生物'],        '数量': [17, 29, 18,37,48,32,17, 29, 18],        '分数': [87, 89, 88,77,98,82,97, 89, 78]}df = pd.DataFrame(data)df.pivot_table(index = ['班级','科目']) #先按照班级然后按照科目分许，默认求均值

在这里插入图片描述

df.pivot_table(index = ['班级'],aggfunc = np.sum)#求和

在这里插入图片描述

pd.pivot_table(df3,values="总分",index="评级",columns=["班级","小组"])

在这里插入图片描述

3.2 交叉表 crosstab

交叉表(crosstab)： 交叉表用于统计分组频率的特殊透视表
在这里插入图片描述

#groupby实现pd.crosstab(df['班级'],df['科目']) df[['班级','科目','姓名']].groupby(['班级','科目']).count().unstack().fillna(0)

在这里插入图片描述

来源地址：https://blog.csdn.net/one_bird_/article/details/130936543

您可能感兴趣的文档:

--结束END--

本文标题: Python学习——数据分组统计、分组运算及透视

本文链接: https://lsjlt.com/news/387381.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python学习——数据分组统计、分组运算及透视

目录 1 数据分组统计 groupby1.1 按照单列进行分组统计df.groupby('列名').count()1.2 按照多列进行分组统计 df.groupby(['列名1','列名2']...

99+

2023-09-01

python 学习
【100天精通Python】Day57：Python 数据分析_Pandas数据描述性统计，分组聚合，数据透视表和相关性分析

目录 1 描述性统计（Descriptive Statistics） 2 数据分组和聚合 3 数据透视表 4 相关性分析 1 描述性统计（Descriptive Statistics）描述性统计是一种用于汇总和理解数据集...

99+

2023-09-10

信息可视化 python pandas
Python科学计算学习之高级数组（二）

代码性能和向量化背景：Python是一种解释型的编程语言，基本的python代码不需要任何中间编译过程来得到机器代码，而是直接执行。而对于C、C++等编译性语言就需要在执行代码前将其编译为机器指令。但是，解释型代码的速度比编译...

99+

2023-01-31

数组高级科学
mysql怎么统计数据分组

mysql 使用 group by 子句分组统计数据，其语法为：select kolom_yang_ingin_dikelompokkan, fungsi_agregasi(k...

99+

2024-05-30

mysql 聚合函数
python中分组函数groupby和分组运算函数agg的使用

目录groupby:agg：今天来介绍pandas中一个很有用的函数groupby，其实和hive中的groupby的效果是一样的，区别在于两种语言的写法问题。groupby在Pyt...

99+

2024-04-02
python中numpy基础学习及进行数组和矢量计算

前言在python 中有时候我们用数组操作数据可以极大的提升数据的处理效率，类似于R的向量化操作，是的数据的操作趋于简单化，在python 中是使用numpy模块可以进行数组和矢量计算。下面来看下简单的...

99+

2022-06-04

数组矢量基础
怎么使用python中分组函数groupby和分组运算函数agg

这篇文章主要介绍“怎么使用python中分组函数groupby和分组运算函数agg”，在日常操作中，相信很多人在怎么使用python中分组函数groupby和分组运算函数agg问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希...

99+

2023-06-25
python DataFrame数据分组统计groupby()函数的使用

目录groupby()函数1. groupby基本用法1.1 一级分类_分组求和1.2 二级分类_分组求和1.3 对DataFrameGroupBy对象列名索引（对指定列统计计算）2...

99+

2024-04-02
MySQL数据库学习之分组函数详解

目录1.分组函数极值求和平均值列数和2.分组查询3.小练习4.大BOSS1.分组函数极值示例表内容见此篇文章找出最高工资： mysql> select max(sal) from emp; +---...

99+

2022-07-24

MySQL数据库分组函数 MySQL分组函数
根据日，周，月分组统计mysql数据

下面讲讲关于根据日，周，月分组统计mysql数据，文字的奥妙在于贴近主题相关。所以，闲话就不谈了，我们直接看下文吧，相信看完根据日，周，月分组统计mysql数据这篇文章你一定会有所受益。根据日统计：sele...

99+

2024-04-02
mysql按照日期分组统计数据

目录前言按天统计按周统计按月统计按年统计date_format参数前言 mysql的date_format函数想必大家都使用过吧，一般用于日期时间转化 # 例如select...

99+

2023-10-18

mysql 数据库
MySQL时间分组：按小时统计数据（mysql按小时分组）

MySQL时间分组是一类涉及MySQL数据库的SQL语句，能够以小时对数据进行分组统计。比如，如果你想根据一定的时间间隔，把MySQL数据库中的记录分成几组，那么MySQL时间分组技术就派上用场了。 MySQL时间分组主要使用MySQL语...

99+

2023-08-16

mysql
python/pandas数据挖掘（十四）-groupby,聚合，分组级运算

https://blog.csdn.net/youngbit007/article/details/54288603 groupbyimport pandas as pddf = pd.DataFrame({"key1":list...

99+

2016-09-15

python/pandas数据挖掘（十四）-groupby 聚合，分组级运算
pandas数据聚合与分组运算的实现

数据聚合与分组运算对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。p...

99+

2023-01-28

pandas 数据聚合 pandas 分组运算
数据库的统计汇总分组合并

对表数据进行检索时，经常需要对结果进行汇总或计算，例如，在学生成绩数据库中求某门课程的总成绩，统计个分数段的人数等。 1.统计函数统计函数用于计算表中的数据，返回单个计算结果 SUM和AVG函数：分别用于求表达式中所有值项的总和...

99+

2021-02-15

数据库的统计汇总分组合并
MySQL数据库Group by分组之后再统计数目Count(*)与不分组直接统计数目的区别

简述问题“统计最新时刻处于某一状态的设备的数量” 首先子查询结果，可以看到每个设备最新的状态信息　 2.1 在子查询的基础上，对设备状态进行分组，进行统计每个状态的设备数量　2.1.1 可以看到处于"火警"状态的数量是2...

99+

2014-09-06

MySQL数据库Group by分组之后再统计数目Count(*)与不分组直接统计数目的区别
MySQL如何统计每个分组的数据条数

在MySQL中，可以使用COUNT函数来统计每个分组的数据条数。下面是一个示例查询： SELECT column_name1...

99+

2024-04-09

MySQL
学习如何使用numpy库进行数据分析和科学计算

随着信息时代的到来，数据分析和科学计算成为了越来越多领域的重要组成部分。在这个过程中，使用计算机进行数据处理和分析已经成为必不可少的工具。而在Python中，numpy库就是一个非常重要的工具，它可以让我们更加高效地进行数据处理...

99+

2024-01-19

数据分析 Numpy 科学计算
计算Java数组长度函数的方法以及代码分析

Java 中的数组可以包含多个元素，具体取决于对象的创建方式。为了让用户执行不同的操作，必须知道数组的长度。数组长度属性：如何求出数组的长度为了获得 Java 数组长度，我们需要...

99+

2022-11-13

Java 数组长度
mysql如何分别按年/月/日/周分组统计数据详解

目录1.统计2.占位符补充：mysql如何指定日期按周分组，并按次数分类统计总结1.统计我们可以使用date_format()函数格式化时间，然后进行分组操作例如有一个学生表，结构如下 idnameageheight...

99+

2022-12-15

mysql分组统计数据 mysql数据查询 mysql统计数据