我正在PBS群集上运行Dask。我的节点是由于服务器负载波动而花费的时间不确定的下载。我设置的工作时间比较长(例如4小时),应该可以包含许多单独的节点/下载。但是,我有成千上万的下载,因此作业将在所有下载完成之前超时。
两个问题:
PBSCluster.scale(n)
启动作业时,如果作业超时,是否会自动启动新作业来代替它们?谢谢!
答案 0 :(得分:0)
使用PBSCluster.scale(n)启动作业时,如果作业超时,是否会自动启动新作业来代替它们?
否,但是您可以尝试使用Adapt intead
cluster.adapt(minimum_jobs=n, maximum_jobs=n)
一个作业死后(例如由于超时),在该作业上运行的节点是否在另一个作业上重新启动,或者它们丢失了?
它们重新启动。但是请注意,如果同一任务需要重新启动几次,那么Dask将停止信任它,并将其标记为失败。