我可以在一台机器上使用Dask没问题
import dask.dataframe as dd
a = dd.read_parquet("c:/data/p03.parquet", columns="var0")
aa=a.value_counts().compute()
但是我如何找出它正在使用多少个工人(或过程)?我尝试过
from dask.distributed import Client
Client()
它显示
客户端:scheduler ='tcp://127.0.0.1:56688'进程= 4核= 12
这是否意味着我的数据帧操作正在使用4个进程?
答案 0 :(得分:1)
这意味着它有4个进程,每个进程都有3个线程可用于您的操作。根据您的计算,您可能希望将其调整为更多线程和更少的进程(通常对于释放解释器锁的事情更好,例如数字工作),或更多进程和更少的线程(对于需要解释器锁的事情通常更好),例如字符串处理)。
要了解操作的实际计算方式,请参阅诊断文档,尤其是在仪表板上:https://docs.dask.org/en/latest/diagnostics-distributed.html#dashboard。