我从一个大约50K行和5列的Pandas数据帧创建了一个Dask数据帧:
ddf = dd.from_pandas(df, npartitions=32)
然后我将一堆列(~30)添加到数据帧并尝试将其转换回Pandas数据帧:
DATA = ddf.compute(get = dask.multiprocessing.get)
我查看了文档,如果我没有指定num_workers
,则默认使用我的所有核心。我在64核EC2实例上,上面的线已经花了几分钟而没有完成......
任何想法如何加速或我做错了什么?
谢谢!
答案 0 :(得分:0)
我建议尝试减少线程数量并增加进程数量以帮助加快处理速度。