我有一个数据集,我试图在该数据集上得出均等的剩余天数的平均值。 示例:
ship_date Order_date cumulative_ordered days_remaining
2018-07-01 2018-05-06 7 56 days
2018-07-01 2018-05-07 10 55 days
2018-07-01 2018-05-08 15 54 days
order_date将倒计时,直到到达ship_date。到那时为止,累计订单等于发货日期之前的总订单。然后,输入新的ship_date,然后重复该过程。我想查看直到订购日期之前每天的平均百分比。例如,如果ship_date 2018-07-01总共有100个订单,而ship_date 2018-08-01总共有200个订单,那么我想查看ship_date之前54天平均订购了多少百分比的商品。
谢谢。
答案 0 :(得分:1)
您可以使用groupby获得每个total_ordered
的{{1}}的平均值:
difference_in_days
这将返回一个系列,其中每组行的平均值为df.groupby("difference_in_days")['total_ordered'].mean()
,并带有一些特定的total_ordered
,例如:
difference_in_days
为了从该系列中提取平均值之一,您需要将其分配给变量并使用索引。假设您希望difference_in_days
2 days 10.5
56 days 50.22
...
Name: total_ordered, dtype: float64
等于total_ordered
的行的difference_in_days
的平均值,您应该这样做:
56