我正在尝试在由两个节点组成的小型dask集群上运行this benchmark。远程工作人员只需使用dask-worker
命令进行部署,并且在基准测试中client
的输出中正确显示。我也试过运行一些简单的函数,比如sleep
,它运行顺畅。
当我运行基准测试时,它最终会在处理add
函数时遇到困难(它在2036/2047停滞不前),就像11个最后的任务永远不会完成一样。当我查看工作人员的日志时,我收到了很多以下消息:
distributed.worker - INFO - Can't find dependencies for key add-efe22746-c80b-42f1-a02d-1217928ba4ec
distributed.worker - INFO - Dependent not found: add-37c59ee3-e3ed-4643-ae13-dd96291207bd 1 . Asking scheduler
我首先使用自己的代码解决了这个问题,但现在我也遇到了基准测试的问题,我相信它与我的设置有关。设置调度程序和工作人员非常简单,我几乎看不出这里出了什么问题。是否有一些关于如何部署工作人员的问题,例如在部署工作人员时必须非常小心的事情吗?
编辑:在主节点上,我有调度程序和工作程序。如果我在这个节点上杀死了worker,它似乎工作正常,尽管没有使用这个节点的核心。这是我应该如何配置群集?也就是说,在主节点上不启动任何工作人员?
答案 0 :(得分:0)
我只运行了同一个笔记本,但不幸的是无法重现这些警告。我希望自从您最初提出问题以来,它们已经被清理。
一如既往,如果您能够提供可重现的最小故障,则始终欢迎github issue tracker上的错误报告。