Question

我从一个大约50K行和5列的Pandas数据帧创建了一个Dask数据帧：

ddf = dd.from_pandas(df, npartitions=32)

然后我将一堆列（~30）添加到数据帧并尝试将其转换回Pandas数据帧：

DATA = ddf.compute(get = dask.multiprocessing.get)

我查看了文档，如果我没有指定num_workers，则默认使用我的所有核心。我在64核EC2实例上，上面的线已经花了几分钟而没有完成......

任何想法如何加速或我做错了什么？

谢谢！

Answer 1

我建议尝试减少线程数量并增加进程数量以帮助加快处理速度。