首页 > 资讯 > 后端开发 > Python >Python数据分析处理(三)--运动员信息的分组与聚合

419

分享到

Python数据分析处理(三)--运动员信息的分组与聚合

2024-04-02 19:04:59 419人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

目录3.1 数据的爬取3.2统计男篮、女篮运动员的平均年龄、身高、体重3.3统计男篮运动员年龄、身高、体重的极差值3.4 统计男篮运动员的体质指数3.4.1添加体重指数3.4.2计算

3.1 数据的爬取

代码：


import pandas as pd
f = open('运动员信息表.csv')
data=pd.read_csv(f,skiprows=0,header=0)
print(data)

运行结果：

首先使用pd.read_csv(f,skiprows=0,header=0)进行数据的读取，并且将数据转换成为dataframe的格式给对象，做初始化，方便后面进行数据的分析。

3.2统计男篮、女篮运动员的平均年龄、身高、体重

代码：


sex=data[["年龄（岁）","身高(cm)","体重(kg)"]].groupby(data["性别"])

print(sex.mean())

运行结果：

首先我们先把数据提取出来做个分组，先把"年龄（岁）",“身高(cm)”,"体重(kg)"这三行数据提取出来再根据性别进行分组。


sex=data[["年龄（岁）","身高(cm)","体重(kg)"]].groupby(data["性别"])

然后再调用mean()求平均值，求出男篮、女篮运动员的平均年龄、身高、体重。

3.3统计男篮运动员年龄、身高、体重的极差值

代码：


sex=data[["年龄（岁）","身高(cm)","体重(kg)"]].groupby(data["性别"])
basketball_male=dict([x for x in sex])['男']
basketball_male
#求极差
def range_data_group(arr):
    return arr.max()-arr.min()
#进行每列不同的聚合
basketball_male.agg({
"年龄（岁）":range_data_group,"身高(cm)":range_data_group,"体重(kg)":range_data_group
})

运行结果：

首先提取数据：

单行循环提取数据，dict([x for x in sex])在循环体内的语句只有一行的情况的下，可以简化for循环的书写。定义一个函数def range_data_group(arr):求极差；

极差的求法：使用最大值减去最小值。就得到极差。

agg()函数：DataFrame.agg（*func*，*axis = 0*，* args*，*** kwargs* ）*

func : 函数，函数名称，函数列表，字典{‘行名/列名’，‘函数名’}

使用指定轴上的一个或多个操作进行聚合。

需要注意聚合函数操作始终是在轴（默认是列轴，也可设置行轴）上执行，不同于 numpy聚合函数

最后我们可以得到三列数据：分别对应"年龄（岁）",“身高(cm)”,“体重(kg)”。

3.4 统计男篮运动员的体质指数

3.4.1添加体重指数

代码：


data["体质指数"]=0
data

运行结果：

添加一行体重指数：data[“体质指数”]=0

3.4.2计算bmi值并添加数据

代码：


# 计算bmi数值
def outer(num):
    def bminum(sumbim):
        weight=data["身高(cm)"]
        height=data["体重(kg)"]
        sumbim=weight/(height/100)**2
        return num+sumbim
    return bminum

将该行数据添加上去：

代码：


# 调用函数
bimdata=data["体质指数"]
data["体质指数"]=data[["体质指数"]].apply(outer(bimdata))
data

运行结果:

编写函数计算bmi数值 outer(num)；然后再使用apply的方法将自定义的函数应用到"体质指数"这一列。然后计算出该列的值之后进行赋值。

data[“体质指数”]=data[[“体质指数”]].apply(outer(bimdata)) 97622)]

编写函数计算bmi数值 outer(num) ；然后再使用apply的方法将自定义的函数应用到"体质指数"这一列。然后计算出该列的值之后进行赋值。

data[“体质指数”]=data[[“体质指数”]].apply(outer(bimdata))

到此这篇关于python数据分析处理运动员信息的分组与聚合的文章就介绍到这了,更多相关Python数据分析处理内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: Python数据分析处理(三)--运动员信息的分组与聚合

本文链接: https://lsjlt.com/news/161097.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python数据分析处理(三)--运动员信息的分组与聚合

目录3.1 数据的爬取3.2统计男篮、女篮运动员的平均年龄、身高、体重3.3统计男篮运动员年龄、身高、体重的极差值3.4 统计男篮运动员的体质指数3.4.1添加体重指数3.4.2计算...

99+

2024-04-02
Python如何处理运动员信息的分组与聚合

这篇文章给大家介绍Python如何处理运动员信息的分组与聚合，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。1.1 数据的爬取代码：import pandas as pdf =&n...

99+

2023-06-22
pandas数据聚合与分组运算的实现

数据聚合与分组运算对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。p...

99+

2023-01-28

pandas 数据聚合 pandas 分组运算
Python数据分析与处理(二)——处理中国地区信息

目录2.1数据的爬取2.2检查重复数据2.3检查缺失值2.4 检查异常值2.1数据的爬取代码： import pandas as pd data=pd.read_csv("ex...

99+

2024-04-02
pythonPandas中数据的合并与分组聚合

目录一、字符串离散化示例二、数据合并2.1 join 2.2 merge 三、数据的分组和聚合四、索引总结一、字符串离散化示例对于一组电...

99+

2024-04-02
python/pandas数据挖掘（十四）-groupby,聚合，分组级运算

https://blog.csdn.net/youngbit007/article/details/54288603 groupbyimport pandas as pddf = pd.DataFrame({"key1":list...

99+

2016-09-15

python/pandas数据挖掘（十四）-groupby 聚合，分组级运算
python数据分析之员工个人信息可视化

目录一、实验目的二、实验内容三、实验要求一、实验目的（1）熟练使用Counter类进行统计（2）掌握pandas中的cut方法进行分类（3）掌握matplotlib第三方库，能...

99+

2024-04-02
Pandas数据分析多文件批次聚合处理实例解析

目录前言一、多文件场景方法一方法二二、多文件读取前言很多情况下我们处理的文件并不只是一个单纯的CSV文件或者Excel文件。我们会结合更多是数据去进行聚合统计分析，或许是需要解析...

99+

2023-02-15

Pandas多文件聚合处理 Pandas 数据分析
【100天精通Python】Day57：Python 数据分析_Pandas数据描述性统计，分组聚合，数据透视表和相关性分析

目录 1 描述性统计（Descriptive Statistics） 2 数据分组和聚合 3 数据透视表 4 相关性分析 1 描述性统计（Descriptive Statistics）描述性统计是一种用于汇总和理解数据集...

99+

2023-09-10

信息可视化 python pandas
Python数据分析与挖掘————图像的处理

系列文章目录文章目录系列文章目录前言图片的马赛克一.安装matplotlib，numpy等模块二.马赛克图片一.导入图片二.定位区域三.图片的合成图片拼接图像的灰度化...

99+

2023-09-24

python 数据分析 matplotlib
Python数据分析与处理(一)--北京高考分数线统计分析

目录1.1 数据爬取1.2 最高分最低分统计1.3 一本二本理科差值统计1.4 2006—2019年近14年每科分数线的平均值统计前言：为了帮助广大考生和家长了解高考历...

99+

2024-04-02
ASP 函数与 numy：大数据分析的最佳组合？

ASP 函数与 NumPy：大数据分析的最佳组合？在当今数字化时代，数据的重要性不言而喻。因此，越来越多的企业和组织开始关注大数据分析。大数据分析是指对大量数据进行收集、处理、分析和解释的过程，以便从中获得有价值的信息和洞察。在这个过程中...

99+

2023-07-25

函数大数据 numy
100天精通Python（数据分析篇）——第65天：Pandas聚合操作与案例

文章目录一、聚合 (aggregation) 1. 内置的聚合函数 2. 可自定义函数，传入agg方法中 3. 应用多个聚合函数 4. 对不同的列分别...

99+

2023-09-11

python pandas 数据分析
聚星C#数字信号处理工具包频谱分析的用法

目录聚星C#数字信号处理工具包频谱分析JXI C# DSP Tools, Spectrum AnalysisC# 数字信号处理工具包 DSP-Core 重采样(Resample)输出...

99+

2023-02-26

C#频谱分析 C#数字信号处理 C#工具包
如何通过索引提升PHP与MySQL的数据分组和数据聚合的效率？

引言：PHP和MySQL是目前应用最广泛的编程语言和数据库管理系统，常常被用于构建web应用程序和处理大量数据。在处理大量数据时，数据分组和数据聚合是常见的操作，但如果不合理地设计和使用索引，这些操作可能会变得非常低效。本文将介绍如何通过索...

99+

2023-10-21

MySQL PHP 关键词：索引
Python函数加速数据分析处理速度的示例分析

Python函数加速数据分析处理速度的示例分析，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。前言：Pandas 是 Python 中最广泛使用的数据分析和操作库...

99+

2023-06-22
Python数据处理的三个实用技巧分享

目录1 Pandas 移除某列2 统计标题单词数3 Genre 频次统计我使用的 Pandas 版本如下，顺便也导入 Pandas 库。 >>> import pa...

99+

2024-04-02
Python数据分析之缺失值检测与处理详解

目录检测缺失值缺失值处理删除缺失值填补缺失值检测缺失值我们先创建一个带有缺失值的数据框(DataFrame)。 import pandas as pd df = pd.Dat...

99+

2024-04-02
大数据分析的利器：Python、Git和NumPy的完美组合

随着大数据时代的到来，数据分析成为了一种热门的技能。在这个领域中，Python、Git和NumPy是最常用的工具之一。它们的完美组合可以帮助分析人员更快、更准确地处理数据。本文将介绍这三个工具，并提供一些示例代码，以帮助您更好地理解它们的...

99+

2023-10-13

git 大数据 numy
Swoole和Workerman的消息队列与实时数据分析的协同处理能力

一、消息队列的协同处理能力消息队列是一种通过异步方式处理多个任务的机制，常用于解决高并发问题和提高系统的可伸缩性。Swoole和Workerman都支持消息队列的使用，通过消息队列可以实现不同服务之间的解耦和协同处理，提高系统的整体性能。具...

99+

2023-10-21

swoole 消息队列 Workerman