计算多索引 pandas 数据帧外部索引每行的总和

2024-02-05 22:02:37 630人浏览薄情痞子

摘要

问题内容我有一个数据框：seller、item、price、shipping、免费送货最低、count available和count required。我的目标是根据稍后计算的 t

问题内容

我有一个数据框：seller、item、price、shipping、免费送货最低、count available和count required。我的目标是根据稍后计算的 total 找到 seller 和 item 的最便宜的组合（计算代码如下所示）。示例数据如下：

import pandas as pd

item1 = ['item 1', 'item 2', 'item 1', 'item 1', 'item 2']
seller1 = ['seller 1', 'seller 2', 'seller 3', 'seller 4', 'seller 1']
price1 = [1.85, 1.94, 2.00, 2.00, 2.02]
shipping1 = [0.99, 0.99, 0.99, 2.99, 0.99]
freeship1 = [5, 5, 5, 50, 5]
countavailable1 = [1, 2, 2, 5, 2]
countneeded1 = [2, 1, 2, 2, 1]

df1 = pd.dataframe({'seller':seller1,
                    'item':item1,
                    'price':price1,
                    'shipping':shipping1,
                    'free shipping minimum':freeship1,
                    'count available':countavailable1,
                    'count needed':countneeded1})

# create columns that states if seller has all counts needed.
# this will be used to sort by to prioritize the smallest number of orders possible
for index, row in df1.iterrows():
    if row['count available'] >= row['count needed']:
        df1.at[index, 'fulfills count needed'] = 'yes'
    else:
        df1.at[index, 'fulfills count needed'] = 'no'

# dont want to calc price based on [count available], so need to check if seller has count i need and calc cost based on [count needed].
# if doesn't have [count needed], then calc cost on [count available].
for index, row in df1.iterrows():
    if row['count available'] >= row['count needed']:
        df1.at[index, 'price x count'] = row['count needed'] * row['price']
    else:
        df1.at[index, 'price x count'] = row['count available'] * row['price']

但是，任何一个seller都可以出售多个item。我想尽量减少支付的运费，所以我想通过 seller 将 items 分组在一起。因此，我根据我在另一个线程中看到的方式使用 .first() 方法对它们进行分组，以便将每一列保留在新的分组数据框中。

# don't calc [total] until sellers have been grouped
# use first() method to return all columns and perfORM no other aggregations
grouped1 = df1.sort_values('price').groupby(['seller', 'item']).first()

此时我想通过seller计算total。所以我有以下代码，但它为每个 item 计算 total，而不是 seller，这意味着 shipping 根据每个组中的商品数量被多次添加，或者当 price x count 结束时不应用免费送货最低免运费。

# calc [Total]
for index, row in grouped1.iterrows():
    if (row['Free Shipping Minimum'] == 50) & (row['Price x Count'] > 50):
        grouped1.at[index, 'Total'] = row['Price x Count'] + 0
    elif (row['Free Shipping Minimum'] == 5) & (row['Price x Count'] > 5):
        grouped1.at[index, 'Total'] = row['Price x Count'] + 0
    else:
        grouped1.at[index, 'Total'] = row['Price x Count'] + row['Shipping']

实际上看起来我可能需要在计算 total 时对每个 seller 求和 price x count ，但这本质上是同一个问题，因为我不知道如何计算外部索引的每行列。我可以使用什么方法来做到这一点？

另外，如果有人对如何实现我的后半部分目标有任何建议，请尽管提出。我只想退回我需要的每件商品。例如，我需要 2 个“项目 1”和 2 个“项目 2”。如果“卖家 1”有 2 个“商品 1”和 1 个“商品 2”，而“卖家 2”有 1 个“商品 1”和 1 个“商品 2”，那么我想要“卖家 1”的所有商品（假设它最便宜），但只有“卖家 2”的 1 个“商品 1”。这似乎会影响 total 列的计算，但我不确定如何实现它。

正确答案

我最终决定首先对 seller 进行分组，并对 price x count 进行求和以找到 subtotals，将其转换为数据帧，然后将 df1 与新的 subtotal 数据帧合并以创建 groupedPHPcnend cphpcn 数据框。然后我使用 np.where 建议创建了 totals 列（这比我的 for 循环优雅得多，并且可以轻松处理 nan 值）。最后按seller、total、item分组返回我想要的结果。最终代码如下：


import pandas as pd
import numpy as np

item1 = ['item 1', 'item 2', 'item 1', 'item 1', 'item 2']
seller1 = ['Seller 1', 'Seller 2', 'Seller 3', 'Seller 4', 'Seller 1']
price1 = [1.85, 1.94, 2.69, 2.00, 2.02]
shipping1 = [0.99, 0.99, 0.99, 2.99, 0.99]
freeship1 = [5, 5, 5, 50, 5]
countavailable1 = [1, 2, 2, 5, 2]
countneeded1 = [2, 1, 2, 2, 1]

df1 = pd.DataFrame({'Seller':seller1,
                    'Item':item1,
                    'Price':price1,
                    'Shipping':shipping1,
                    'Free Shipping Minimum':freeship1,
                    'Count Available':countavailable1,
                    'Count Needed':countneeded1})

# create columns that states if seller has all counts needed.
# this will be used to sort by to prioritize the smallest number of orders possible
for index, row in df1.iterrows():
    if row['Count Available'] >= row['Count Needed']:
        df1.at[index, 'Fulfills Count Needed'] = 'Yes'
    else:
        df1.at[index, 'Fulfills Count Needed'] = 'No'

# dont want to calc price based on [count available], so need to check if seller has count I need and calc cost based on [count needed].
# if doesn't have [count needed], then calc cost on [count available].
for index, row in df1.iterrows():
    if row['Count Available'] >= row['Count Needed']:
        df1.at[index, 'Price x Count'] = row['Count Needed'] * row['Price']
    else:
        df1.at[index, 'Price x Count'] = row['Count Available'] * row['Price']

# subtotals by seller, then assign calcs to column called [Subtotal] and merge into dataframe
subtotals = df1.groupby(['Seller'])['Price x Count'].sum().reset_index()

subtotals.rename({'Price x Count':'Subtotal'}, axis=1, inplace=True)

grouped = df1.merge(subtotals[['Subtotal', 'Seller']], on='Seller')


# calc [Total]
grouped['Total'] = np.where(grouped['Subtotal'] > grouped['Free Shipping Minimum'],
                             grouped['Subtotal'], grouped['Subtotal'] + grouped['Shipping'])

grouped.groupby(['Seller', 'Total', 'Item']).first()
以上就是计算多索引 pandas 数据帧外部索引每行的总和的详细内容，更多请关注编程网其它相关文章！



--结束END--
 本文标题: 计算多索引 pandas 数据帧外部索引每行的总和
 本文链接: https://lsjlt.com/news/561106.html(转载时请注明来源链接)
有问题或投稿请发送至:
邮箱/279061341@qq.com    QQ/279061341




猜你喜欢







计算多索引 pandas 数据帧外部索引每行的总和
 
					
                    
问题内容
我有一个数据框：seller、item、price、shipping、免费送货最低、count available和count required。我的目标是根据稍后计算的 t...

 




99+
2024-02-05









Pandas数据分析-pandas数据框的多层索引
 
                            目录前言创建多层索引 多层索引操作 索引名称的查看 索引的层级 索引内容的查看数据查询 数据分组前言
pandas数据框针对高维数据...

 




99+
2024-04-02









数据库中如何计算索引高度和索引段大小
 
                这篇文章主要介绍数据库中如何计算索引高度和索引段大小，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！															B*-Tree level (depth of the...

 




99+
2024-04-02









如何利用pandas工具输出每行的索引值、及其对应的行数据
 
                            下面给大家介绍如何利用pandas工具输出每行的索引值、及其对应的行数据，先给大家展示下输出结果，感兴趣的朋友可以参考具体实例代码。
输出结果

name  &n...

 




99+
2024-04-02









PHP如何带索引检查计算数组的差集，用回调函数比较数据和索引
 这篇文章将为大家详细讲解有关PHP如何带索引检查计算数组的差集，用回调函数比较数据和索引，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。PHP 使用带索引检查的回调函数计算数组差集
简介
数组差集是两个数组...

 




99+
2024-04-02









pandas删除部分数据后重新生成索引的实现
 
                            目录pandas删除部分数据后重新索引原数据删除部分数据后附件：网上查到的格式化用的编码pandas常用的index索引设置1.读取时指定索引列2. 使用现有的 DataFrame ...

 




99+
2024-04-02









PHP如何带索引检查计算数组的交集，用单独的回调函数比较数据和索引
 这篇文章将为大家详细讲解有关PHP如何带索引检查计算数组的交集，用单独的回调函数比较数据和索引，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。PHP 带索引检查计算数组交集
计算两个或多个数组的交集是数据处...

 




99+
2024-04-02









numpy与Python的异步编程：如何优化数据索引和计算？ 
 numpy与Python的异步编程：如何优化数据索引和计算？
在数据科学和机器学习的领域中，numpy是一个不可或缺的Python库。它提供了一些重要的数据结构和算法，特别是在处理大规模数据时。虽然numpy在处理数据方面非常高效，但在大规...

 




99+
2023-09-02

索引
异步编程
numpy








MySQL 隔离数据列和前缀索引的使用总结
 

				
					目录隔离数据列前缀索引和索引的选择性隔离数据列

通常，我们会发现查询语句会妨碍MySQL使用索引。除非在查询语句中列是独立的，否则MySQL不会使用这些列的索引。“隔离”的意思是索引列不应该成为表达式的一部分或者在...

 




99+
2022-05-20

MySQL
隔离数据列
MySQL
前缀索引








Oracle数据库中索引的常见执行计划是什么
 
                这篇文章将为大家详细讲解有关Oracle数据库中索引的常见执行计划是什么，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。今天主要介绍下Oracle索引的常见执...

 




99+
2024-04-02









如何通过索引优化PHP与MySQL的计算字段和JSON数据的查询？
 引言：在PHP和MySQL开发中，经常会涉及到计算字段和JSON数据的查询需求。然而，由于这两种查询都会带来较高的计算量和数据处理复杂度，如果不加以优化，可能会导致性能下降。本文将介绍如何通过索引优化PHP与MySQL的计算字段和JSON数...

 




99+
2023-10-21

MySQL
PHP
索引优化








单个表上亿行数据的主键、索引设计，及分页查询
 
        
        单个表数据量超过1亿的，需要精心设计表的主键、索引，其分页查询也不能乱写，否则性能不佳。
此文章特介绍作者心得。
    

一，概述一般而言，我们对关系型数据库系统，进行表结构设计时，会按数据的种类，进...

 




99+
2015-11-11

单个表上亿行数据的主键
索引设计，及分页查询








如何通过索引提升PHP与MySQL的行数估算和数据去重查询的效率？
 在开发PHP与MySQL的应用程序时，往往需要对数据库的行数进行估算和执行去重查询等操作。为了提升这些操作的效率，可以通过使用索引来优化查询过程。本文将介绍如何在PHP与MySQL中利用索引来提升行数估算和数据去重查询的效率，并给出具体的代...

 




99+
2023-10-21

MySQL
PHP
索引








PHP如何带索引检查计算数组的差集，用回调函数比较数据
 这篇文章将为大家详细讲解有关PHP如何带索引检查计算数组的差集，用回调函数比较数据，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。使用回调函数比较数据的 PHP 数组差集
在 PHP 中，使用回调函数比较数...

 




99+
2024-04-02









PHP如何带索引检查计算数组的交集，用回调函数比较数据
 这篇文章将为大家详细讲解有关PHP如何带索引检查计算数组的交集，用回调函数比较数据，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。PHP 使用带索引检查的回调函数计算数组交集
在 PHP 中，计算两个或多个...

 




99+
2024-04-02









MySQL因数据类型转换导致执行计划使用低效索引的示例分析
 
                小编给大家分享一下MySQL因数据类型转换导致执行计划使用低效索引的示例分析，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！查看表的索引情况mysql> show ...

 




99+
2024-04-02









Linux系统下，如何使用Go语言和NumPy来进行高效的数据索引？
 
在数据处理和科学计算的领域，数据索引是一个非常重要的问题。在Linux系统中，使用Go语言和NumPy可以实现高效的数据索引，让我们一起来了解一下。
首先介绍一下Go语言和NumPy。Go语言是一门开源的编程语言，由Google开发，具有...

 




99+
2023-06-13

索引
linux
numy








PHP与MySQL索引的数据查询和数据更新的执行顺序及其对性能的影响
 引言:在开发中，PHP与MySQL是常用的组合，MySQL是一款关系型数据库管理系统，而PHP是一种用于开发Web应用的脚本语言。在处理大量数据时，索引的使用对于查询和更新操作的性能至关重要。本文将讨论PHP与MySQL索引的数据查询和数据...

 




99+
2023-10-21

MySQL
PHP
索引






软考高级职称资格查询








热门wiki










mysql删除数据恢复

mysql删表能回滚吗

mysql找回删除的表

mysql不小心删除了表

mysql不小心把表删了怎么恢复数据

mysql数据表删除后能恢复么

mysql误删表数据恢复

mysql误删表恢复

mysql删除表怎么恢复

mysql删除表











近期文章










C++ 中继承如何用于构建类层次结构？

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

golang函数中的调度器是如何实现的？

C++ 多线程编程中 memory barriers 的作用是什么？

C++ 内存管理如何预防内存泄漏和野指针问题？

C++ 中继承和多态性的实现机制是什么？

使用golang框架的最佳实践有哪些？

用 PHP 框架优化应用程序性能的技巧和策略

C++ 内存管理如何适应不同的硬件架构？











推荐阅读











使用golang框架有哪些常见的问题？

2024-05-24







golang框架与其他流行框架的比较？

2024-05-24







如何使用 C++ STL 扩展 C++ 语言的功能？

2024-05-24







PHP 框架安全指南：如何实现安全编码实践？

2024-05-24







mysql拆分函数使用要注意哪些事项

2024-05-24







C++ 思维导图：全面整理编程核心知识

2024-05-24







基于社区支持最强大的PHP框架

2024-05-24







如何在 C++ 中有效使用 STL 函数对象？

2024-05-24







PHP 框架中的调试和故障排除技术

2024-05-24







经验丰富的开发者的PHP框架评估指南

2024-05-24
















热门问答













1
回答

如何调试操作系统的错误？
操作系统




2023-11-15发布






1
回答

操作系统中的I/O系统是如何实现的？
操作系统




2023-11-15发布






1
回答

如何实现操作系统的内存管理？
操作系统




2023-11-15发布






1
回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统




2023-11-15发布






1
回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET




2023-11-15发布






1
回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET




2023-11-15发布






1
回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET




2023-11-15发布






1
回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js




2023-11-15发布






1
回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE




2023-11-15发布






1
回答

如何使用Vue.js实现懒加载和预加载？
VUE




2023-11-15发布













热门标签





Python操作PostgreSQL
Python连接PostgreSQL
Python连接和操作PostgreSQL
SQL建表语句
SQL建表语句使用
RedisTemplate使用
MySQL提取数据
JSON提取数据
MySQL从JSON提取数据
MySQL免密登录
MySQL免密登录配置
Oracle端口
Oracle修改端口
Oracle更换端口
Oracle更换监听端口
HBASE部署
HBASE集群部署
oracle中的trunc函数
oracle中trunc
winx64安装
格式化yyyy-mm-dd
mysql时间戳格式化yyyy-mm-dd
mysql8.0.15重置密码
mysql8.0.15修改密码
2059
Navicat连接MySQL出现2059
DBeaver导入数据
DBeaver导入excel大量数据
DBeaver导入excel数据
dbeaver导出



        
            
                
                    
                    编程网，编程工程师的家园，是目前国内优秀的开源技术社区之一，形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容，为IT开发者提供了一个发现、使用、并交流开源技术的平台。
                    
                
                
                    
                        
                            前端
                            后端
                            数据库
                            服务器
                            操作系统
                            
                        
                    
                    
                        
                            商务合作：279061341@qq.com
                            网站地图
                            投稿合作：279061341@qq.com
                            标签大全
                            虚位以待
                        
                    
                
                
                    
                        
                            
                            官方手机版
                        
                        
                            
                            微信公众号
                        
                        
                            
                            商务合作
                        
                        
                    
                
                
            
        
        
            
                
                    
                        
                            Powered by
                            编程网
                            |
                            Copyright © 2018-2023, 版权所有.
                            |
网站地图 |
苏ICP备17033115号 
                        
                    
                
                
            
        
    
    
    
        返回顶部