确定Python中每天每件商品平均订购数量的最有效方法

时间:2019-06-19 14:49:53

标签: python pandas dataframe data-analysis

我是Python的新手,并且在一个数据框中具有一个大型数据集(准确地说,超过55,000行),该数据框中包含UPC列,pick_picked和date。我正在尝试确定最有效的方法来计算每个UPC每天的平均拾取量。有没有一种方法比使用嵌套循环更有效?

我尝试了.mean方法,但是当然,它仅提供每个订单每个UPC的平均拣选数量。 我还尝试实现.groupby()。

practice_df_by_UPC = practice_df.groupby('UPC')
print(practice_df_by_UPC)

我没有收到错误,但也没有输出。

我想要一个输出,使我可以查看UPC每天平均拣选的物品数。有没有一种方法可以对我发现效率不高的数据帧执行此操作,或者是一组嵌套循环可以解决?

1 个答案:

答案 0 :(得分:0)

使用set_index退出groupby并进行一些额外的故障排除后,以下代码解决了该问题,并完成了确定指定UPC和日期(例如插入的UPC和日期的示例)的平均数量的目标:

#creating multi-index based on date and UPC
practice_df.set_index(['date_expected', 'UPC'], inplace=True)

print('Mean:')
print(practice_df.loc['2019-05-15', '0000000004011'].mean())

inplace = True添加消除了剩余的错误。现在,在打印数据框时,它首先按日期,然后按UPC进行多索引组织。