是否存在Dask.distributed部署有数百个工作节点的轶事案例?分布是否意味着扩展到这个大小的集群?
答案 0 :(得分:10)
是
我见过的最大的Dask.distributed集群大约有一千个节点。理论上我们可以更大,但不是很大。
当前限制是调度程序每个任务产生大约200微秒的开销。这相当于每秒约5000个任务。如果您的每个任务大约需要一秒钟,那么调度程序可以使大约5000个内核饱和。
从历史上看,我们遇到了其他限制,例如开放文件句柄限制等。这些都已经被清理到我们已经看到的规模(1000个节点),并且在Linux或OSX上通常情况良好。 Windows上的Dask调度程序在数百个节点中停止扩展(尽管您可以将Linux调度程序与Windows工作程序一起使用)。当我们扩展到10k节点时,我不会惊讶地看到其他问题。
简而言之,您可能不想使用Dask来替换百万核心Big Iron SuperComputer或Google Scale上的MPI工作负载。否则你可能没事。