我需要将我的数据集拆分为多个块,目前我使用以下简单代码进行操作:
cases = []
for i in set(df['key']):
cases.append(df[df['key']==i].copy())
但是我的数据集非常庞大,最终要花几个小时,所以我想知道是否有一种方法可以使用多线程来加速呢?还是还有其他方法可以使此过程更快?
答案 0 :(得分:1)
我相当确定您要按唯一键分组。使用内置功能可以做到这一点。
cases = list(df.groupby('key'))