如果作业失败,我如何自动重新排队SLURM的工作?

时间:2017-03-13 13:30:08

标签: slurm

我必须运行300个相同型号的作业(黑匣子)。但有时在模型内部会发生分段错误,并显示以下错误消息:

srun: error: nodexyz: task 0: Segmentation fault

群集使用SLURM作为资源管理器,如果失败,我想自动重新排队。

1 个答案:

答案 0 :(得分:3)

尝试在|| scontrol requeue $SLURM_JOB_ID命令的末尾添加srun,以便在失败并返回非零输出代码时,作业将被重新排队并重新安排。您可以使用$SLURM_RESTART_COUNT跟踪重新启动次数。