标签: dask dask-distributed
我有一个约200万行的csv文件。此csv文件具有我设置为索引的列(列A)。现在,该索引在12个分区中具有 160万个唯一值。当我对索引执行分组依据时,它花费的时间超过了 10分钟。对于一个文件,这不是问题,但是我需要对600多个文件执行此操作。我感觉自己在做错事,但是无法指出瓶颈,有什么想法吗?
我的任务图:
任务流如下所示: