我是Python的新手,并且在一个数据框中具有一个大型数据集(准确地说,超过55,000行),该数据框中包含UPC列,pick_picked和date。我正在尝试确定最有效的方法来计算每个UPC每天的平均拾取量。有没有一种方法比使用嵌套循环更有效?
我尝试了.mean方法,但是当然,它仅提供每个订单每个UPC的平均拣选数量。 我还尝试实现.groupby()。
practice_df_by_UPC = practice_df.groupby('UPC')
print(practice_df_by_UPC)
我没有收到错误,但也没有输出。
我想要一个输出,使我可以查看UPC每天平均拣选的物品数。有没有一种方法可以对我发现效率不高的数据帧执行此操作,或者是一组嵌套循环可以解决?
答案 0 :(得分:0)
使用set_index退出groupby并进行一些额外的故障排除后,以下代码解决了该问题,并完成了确定指定UPC和日期(例如插入的UPC和日期的示例)的平均数量的目标:
#creating multi-index based on date and UPC
practice_df.set_index(['date_expected', 'UPC'], inplace=True)
print('Mean:')
print(practice_df.loc['2019-05-15', '0000000004011'].mean())
inplace = True添加消除了剩余的错误。现在,在打印数据框时,它首先按日期,然后按UPC进行多索引组织。