Question

我需要将我的数据集拆分为多个块，目前我使用以下简单代码进行操作：

    cases = []
    for i in set(df['key']):
        cases.append(df[df['key']==i].copy())

但是我的数据集非常庞大，最终要花几个小时，所以我想知道是否有一种方法可以使用多线程来加速呢？还是还有其他方法可以使此过程更快？

Answer 1

我相当确定您要按唯一键分组。使用内置功能可以做到这一点。

cases = list(df.groupby('key'))