Dask:DataFrame永远需要计算

时间:2017-07-27 22:51:07

标签: python pandas dask

我从一个大约50K行和5列的Pandas数据帧创建了一个Dask数据帧:

ddf = dd.from_pandas(df, npartitions=32)

然后我将一堆列(~30)添加到数据帧并尝试将其转换回Pandas数据帧:

DATA = ddf.compute(get = dask.multiprocessing.get)

我查看了文档,如果我没有指定num_workers,则默认使用我的所有核心。我在64核EC2实例上,上面的线已经花了几分钟而没有完成......

任何想法如何加速或我做错了什么?

谢谢!

1 个答案:

答案 0 :(得分:0)

我建议尝试减少线程数量并增加进程数量以帮助加快处理速度。