黄昏:如果运行他们的工作被杀死(例如由于超时),工人是否会重启?

时间:2020-04-14 20:20:47

标签: dask pbs

我正在PBS群集上运行Dask。我的节点是由于服务器负载波动而花费的时间不确定的下载。我设置的工作时间比较长(例如4小时),应该可以包含许多单独的节点/下载。但是,我有成千上万的下载,因此作业将在所有下载完成之前超时。

两个问题:

  1. 使用PBSCluster.scale(n)启动作业时,如果作业超时,是否会自动启动新作业来代替它们?
  2. 作业死后(例如由于超时),在该作业上运行的节点是在另一个作业上重新启动还是丢失?

谢谢!

1 个答案:

答案 0 :(得分:0)

使用PBSCluster.scale(n)启动作业时,如果作业超时,是否会自动启动新作业来代替它们?

否,但是您可以尝试使用Adapt intead

cluster.adapt(minimum_jobs=n, maximum_jobs=n)

一个作业死后(例如由于超时),在该作业上运行的节点是否在另一个作业上重新启动,或者它们丢失了?

它们重新启动。但是请注意,如果同一任务需要重新启动几次,那么Dask将停止信任它,并将其标记为失败。