与pandas.groupby聚合的更快替代方法?

时间:2019-01-21 12:05:04

标签: python pandas

我有一个程序要花很多时间:

agg_df[['foo', 'bar', 'baz']] = df.groupby('some_ID')['foo', 'bar', 'baz'].sum()

速度至关重要,groupby相当慢,所以我想以更快的方式完成同样的事情。理想情况下,我希望可以从numba.njit中受益,但是可以进行任何改进。到目前为止,我对sorted=False调用添加了groupby只是一个小改进。

我的数据已经按照我所分组的大多数some_ID进行了排序,如果有帮助的话。我很高兴离开pandas并只对基础数组进行操作,但是更好的pandas效果也不错。

如何改善这种聚合?

0 个答案:

没有答案