为什么在groupby索引期间sort_index需要相对较长的时间?

时间:2019-02-09 12:57:16

标签: dask dask-distributed

我有一个约200万行的csv文件。此csv文件具有我设置为索引的列(列A)。现在,该索引在12个分区中具有 160万个唯一值。当我对索引执行分组依据时,它花费的时间超过了 10分钟。对于一个文件,这不是问题,但是我需要对600多个文件执行此操作。我感觉自己在做错事,但是无法指出瓶颈,有什么想法吗?

我的任务图: enter image description here

任务流如下所示: enter image description here

0 个答案:

没有答案