有没有办法限制默认线程调度程序使用的内核数(使用dask数据帧时默认)?
使用compute
,您可以使用以下方式指定它:
df.compute(get=dask.threaded.get, num_workers=20)
但我想知道是否有办法将其设置为默认值,因此您不需要为每次compute
来电指定此内容?
例如,在小型集群(例如64个核心)的情况下会很有趣,但是与其他人共享(没有工作系统),并且我不想要占用所有核心用dask开始计算时。
答案 0 :(得分:13)
您可以指定默认的ThreadPool
from multiprocessing.pool import ThreadPool
import dask
dask.config.set(pool=ThreadPool(20))