我有一个程序要花很多时间:
agg_df[['foo', 'bar', 'baz']] = df.groupby('some_ID')['foo', 'bar', 'baz'].sum()
速度至关重要,groupby
相当慢,所以我想以更快的方式完成同样的事情。理想情况下,我希望可以从numba.njit
中受益,但是可以进行任何改进。到目前为止,我对sorted=False
调用添加了groupby
只是一个小改进。
我的数据已经按照我所分组的大多数some_ID
进行了排序,如果有帮助的话。我很高兴离开pandas
并只对基础数组进行操作,但是更好的pandas
效果也不错。
如何改善这种聚合?