我正在使用python 3.5。 我正在使用
操纵一个巨大的数据框(5亿行)gb=df.groupby(by=a_field)
结果gb是数百万个groupby元素。由于操作速度至关重要,我需要将此较大的分组结果分割为几个较小的分组(相同格式)。然后,我将使用
threading.Thread(target=function,args=(smaller_gb))
具有对每个较小的块进行并行处理的功能。希望可以加快我的计算速度。
关于如何将大型groupby结果分成几个较小的组元素并保持最佳性能,我找不到很好的答案。
我很感谢。
非常感谢 杰拉德