如何找出我的Dask数据框正在使用多少个工人?

时间:2019-08-23 11:09:19

标签: python dask dask-distributed

我可以在一台机器上使用Dask没问题

import dask.dataframe as dd
a = dd.read_parquet("c:/data/p03.parquet", columns="var0")
aa=a.value_counts().compute()

但是我如何找出它正在使用多少个工人(或过程)?我尝试过

from dask.distributed import Client
Client()

它显示

  

客户端:scheduler ='tcp://127.0.0.1:56688'进程= 4核= 12

这是否意味着我的数据帧操作正在使用4个进程?

1 个答案:

答案 0 :(得分:1)

这意味着它有4个进程,每个进程都有3个线程可用于您的操作。根据您的计算,您可能希望将其调整为更多线程和更少的进程(通常对于释放解释器锁的事情更好,例如数字工作),或更多进程和更少的线程(对于需要解释器锁的事情通常更好),例如字符串处理)。

要了解操作的实际计算方式,请参阅诊断文档,尤其是在仪表板上:https://docs.dask.org/en/latest/diagnostics-distributed.html#dashboard