Dask分布式本地目录

时间:2019-05-17 17:43:08

标签: python dask dask-distributed

我想将所有临时数据引导至/mnt/1上的快速大磁盘。我正在像这样运行调度程序:

dask-scheduler --local-directory /mnt/1

和工人:

dask-worker 127.0.0.1:8786 --memory-limit 16GB --nthreads 1 --nprocs 6 --local-directory /mnt/1/

我的导入看起来像这样:

import dask
from dask import dataframe as dd
from dask import delayed
from dask.distributed import Client
client = Client('localhost:8786', set_as_default=True)
dask.config.set(shuffle='disk')

但是,我仍然看到一个partd目录正在创建,并且在我的/tmp目录中充满了东西,该目录不在我的快速大磁盘上。

我的问题是:如何告诉dask分发将绝对的所有临时数据发送到/mnt/1而不将任何放入/tmp中?

1 个答案:

答案 0 :(得分:0)

这似乎有效,请注意最后一行。命令行标志实际上并没有按照他们的建议去做。

import dask
from dask import dataframe as dd
from dask import delayed
from dask.distributed import Client
client = Client('localhost:8786', set_as_default=True)
dask.config.set(shuffle='disk')
dask.config.set({'temporary_directory': '/mnt/1'})