如何查看Dask Compute任务的进度?

时间:2018-02-28 22:33:12

标签: python-3.x jupyter-notebook distributed-computing dask

我希望在使用Dask运行计算任务时看到Jupyternotebook上的进度条,我正在计算大型csv文件+ 4GB的“id”列的所有值,所以有什么想法吗?

import dask.dataframe as dd

df = dd.read_csv('data/train.csv')
df.id.count().compute()

1 个答案:

答案 0 :(得分:16)

如果您正在使用单机调度程序,请执行以下操作:

from dask.diagnostics import ProgressBar
ProgressBar().register()

http://dask.pydata.org/en/latest/diagnostics-local.html

如果您正在使用分布式调度程序,请执行以下操作:

from dask.distributed import progress

result = df.id.count.persist()
progress(result)

或者只使用仪表板

http://dask.pydata.org/en/latest/diagnostics-distributed.html