返回顶部
首页 > 资讯 > 后端开发 > Python >python利用pd.cut()和pd.qcut()对数据进行分箱操作
  • 903
分享到

python利用pd.cut()和pd.qcut()对数据进行分箱操作

2024-04-02 19:04:59 903人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

目录1.cut()可以实现类似于对成绩进行优良统计的功能,来看代码示例。2.qcut()可以生成指定的箱子数,然后使每个箱子都具有相同数量的数据1.cut()可以实现类似于对成绩进行

1.cut()可以实现类似于对成绩进行优良统计的功能,来看代码示例。

假如我们有一组学生成绩,我们需要将这些成绩分为不及格(0-59)、及格(60-70)、良(71-85)、优(86-100)这几组。这时候可以用到cut()

import numpy as np
import pandas as pd

# 我们先给 scores传入30个从0到100随机的数
scores = np.random.unifORM(0,100,size=30)

# 然后使用 np.round()函数控制数据精度
scores = np.round(scores,1)

# 指定分箱的区间
grades = [0,59,70,85,100]

cuts = pd.cut(scores,grades)
print('\nscores:')
print(scores)
print('\ncuts:')
print(cuts)
# 我们还可以计算出每个箱子中有多少个数据
print('\ncats.value_counts:')
print(pd.value_counts(cuts))

======output:======

scores:
[ 6.  50.8 80.2 22.1 60.1 75.1 30.8 50.8 81.6 17.4 13.4 24.3 67.3 84.4
 63.4 21.3 17.2  3.7 40.1 12.4 15.7 23.1 67.4 94.8 72.6 12.8 81.  82.
 70.2 54.1]

cuts:
[(0, 59], (0, 59], (70, 85], (0, 59], (59, 70], ..., (0, 59], (70, 85], (70, 85], (70, 85], (0, 59]]
Length: 30
CateGories (4, interval[int64]): [(0, 59] < (59, 70] < (70, 85] < (85, 100]]

cuts.value_counts:
(0, 59]      17
(70, 85]      8
(59, 70]      4
(85, 100]     1
dtype: int64

默认情况下,cat()的区间划分是左开右闭,可以传递right=False来改变哪一边是封闭的

代码示例:

cuts = pd.cut(scores,grades,right=False)

也可以通过向labels选项传递一个列表或数组来传入自定义的箱名

代码示例:

group_names = ['不及格','及格','良','优秀']
cuts = pd.cut(scores,grades,labels=group_names)

当我们不需要自定义划分区间时,而是需要根据数据中最大值和最小值计算出等长的箱子。

代码示例:

# 将成绩均匀的分在四个箱子中,precision=2的选项将精度控制在两位
cuts = pd.cut(scores,4,precision=2)

2.qcut()可以生成指定的箱子数,然后使每个箱子都具有相同数量的数据

代码示例:

import numpy as np
import pandas as pd

# 正态分布
data = np.random.randn(100)

# 分四个箱子
cuts = pd.qcut(data,4)

print('\ncuts:')
print(cuts)
print('\ncuts.value_counts:')
print(pd.value_counts(cuts))


======output:======

cuts:
[(-0.745, -0.0723], (0.889, 2.834], (-0.745, -0.0723], (0.889, 2.834], (0.889, 2.834], ..., (-0.745, -0.0723], (-0.0723, 0.889], (-3.1599999999999997, -0.745], (-0.745, -0.0723], (-0.0723, 0.889]]
Length: 100
Categories (4, interval[float64]): [(-3.1599999999999997, -0.745] < (-0.745, -0.0723] < (-0.0723, 0.889] <
                                    (0.889, 2.834]]

cuts.value_counts:
(0.889, 2.834]                   25
(-0.0723, 0.889]                 25
(-0.745, -0.0723]                25
(-3.1599999999999997, -0.745]    25
dtype: int64

到此这篇关于python利用pd.cut()和pd.qcut()对数据进行分箱操作的文章就介绍到这了,更多相关Python pd.cut()和pd.qcut()分箱操作内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: python利用pd.cut()和pd.qcut()对数据进行分箱操作

本文链接: https://lsjlt.com/news/118724.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python利用pd.cut()和pd.qcut()对数据进行分箱操作
    目录1.cut()可以实现类似于对成绩进行优良统计的功能,来看代码示例。2.qcut()可以生成指定的箱子数,然后使每个箱子都具有相同数量的数据1.cut()可以实现类似于对成绩进行...
    99+
    2024-04-02
  • python如何利用pd.cut()和pd.qcut()对数据进行分箱操作
    这篇“python如何利用pd.cut()和pd.qcut()对数据进行分箱操作”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇...
    99+
    2023-07-02
  • Pandas对数值进行分箱操作的方法有哪些
    这篇文章主要讲解了“Pandas对数值进行分箱操作的方法有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Pandas对数值进行分箱操作的方法有哪些”吧!前言使用 Pandas 的betw...
    99+
    2023-06-30
  • Android中怎么利用LitePal对数据库进行操作
    Android中怎么利用LitePal对数据库进行操作,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。首先在app/build.grade文件中编辑dependencies{.....
    99+
    2023-06-04
  • 利用Python进行数据清洗的操作指南
    目录缺失值异常值数据不一致无效数据重复数据数据泄漏问题你一定听说过这句著名的数据科学名言: 在数据科学项目中, 80% 的时间是在做数据处理。 如果你没有听过,那么请记住:数据清洗是...
    99+
    2024-04-02
  • 怎么在python中利用openpyxl和xlsxwriter对Excel进行操作
    本篇文章给大家分享的是有关怎么在python中利用openpyxl和xlsxwriter对Excel进行操作,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。简介Python中操作...
    99+
    2023-06-06
  • Pandas对数值进行分箱操作的4种方法总结
    目录前言1、between & loc2、cut3、qcut4、value_counts前言 使用 Pandas 的between 、cut、qcut 和 value_cou...
    99+
    2024-04-02
  • ODBC中怎么利用CRecordset类对数据库进行操作
    ODBC中怎么利用CRecordset类对数据库进行操作,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。 1.MFC中的ODBC类...
    99+
    2024-04-02
  • 利用Python进行数据分析_Panda
    申明:本系列文章是自己在学习《利用Python进行数据分析》这本书的过程中,为了方便后期自己巩固知识而整理。 import pandas as pd import numpy as np file = 'D:\example.xls'...
    99+
    2023-01-30
    数据 Python _Panda
  • 怎么在Python中利用Selenium对Cookie进行操作
    本文章向大家介绍怎么在Python中利用Selenium对Cookie进行操作的基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象...
    99+
    2023-06-06
  • Java中怎么利用Streams对数据库进行查询操作
    Java中怎么利用Streams对数据库进行查询操作,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。示例数据库我们使用的示例数据库是Saki...
    99+
    2024-04-02
  • 利用hibernate怎么对数据库进行增删改查操作
    本篇文章给大家分享的是有关利用hibernate怎么对数据库进行增删改查操作,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。Hibernate对数据删除操作删除User表中个一条...
    99+
    2023-05-31
    hibernate
  • 利用mybatis怎么对数据库进行增删改查操作
    这篇文章将为大家详细讲解有关利用mybatis怎么对数据库进行增删改查操作,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。所需要用到的其他工具或技术:项目管理工具 : Maven测试运行工具 ...
    99+
    2023-05-31
    mybatis
  • Python利用CNN实现对时序数据进行分类
    目录一、数据集介绍二、数据预处理2.1 获取原始数据2.2 获取原始标签2.3 数据分割2.4 整合数据和标签2.5 保存三、数据训练3.1 读取数据并进行处理3.2 构建数据结构3...
    99+
    2023-02-22
    Python CNN时序数据分类 Python CNN数据分类 Python CNN
  • 怎么在python中利用loguru对日志进行操作
    本篇文章为大家展示了怎么在python中利用loguru对日志进行操作,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。python可以做什么Python是一种编程语言,内置了许多有效的工具,Pytho...
    99+
    2023-06-14
  • 怎样利用Python对心脏病数据集进行分析
    这篇文章将为大家详细讲解有关怎样利用Python对心脏病数据集进行分析,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。我们都很害怕生病,但感冒发烧这种从小到大的疾病我们已经麻木了,因为一星期他...
    99+
    2023-06-16
  • hbase之python利用thrift操作hbase数据和shell操作
    前沿:        以前都是用mongodb的,但是量大了,mongodb显得不那么靠谱,改成hbase撑起一个量级。HBase是Apache Hadoop的数据库...
    99+
    2024-04-02
  • 使用phonegap怎么对数据库进行操作
    使用phonegap怎么对数据库进行操作?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。实例如下:<!DOCTYPE html> ...
    99+
    2023-06-09
  • PHP中利用数组差集对数据库进行修改操作的案例
    小编给大家分享一下PHP中利用数组差集对数据库进行修改操作的案例,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!1.主要利用的函数array_diff_assoc() a.语法:array_diff_assoc(array1...
    99+
    2023-06-14
  • 使用Node怎么对MongoDB数据库进行操作
    这篇文章给大家介绍使用Node怎么对MongoDB数据库进行操作,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。1.使用 MongoDB模块 进行操作 首先在工作目录安装 mo...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作