如何优化熊猫数据框的分块?

时间:2018-07-10 22:36:54

标签: python pandas python-multiprocessing python-multithreading

我需要将我的数据集拆分为多个块,目前我使用以下简单代码进行操作:

    cases = []
    for i in set(df['key']):
        cases.append(df[df['key']==i].copy())

但是我的数据集非常庞大,最终要花几个小时,所以我想知道是否有一种方法可以使用多线程来加速呢?还是还有其他方法可以使此过程更快?

1 个答案:

答案 0 :(得分:1)

我相当确定您要按唯一键分组。使用内置功能可以做到这一点。

cases = list(df.groupby('key'))