获取slurm停止工作的原因

时间:2017-07-28 11:40:14

标签: slurm

有没有办法找出工作被slurm取消的原因?我想区分资源限制因所有其他原因(如手动取消)而受到影响的情况。如果资源限制被击中,我也想知道哪一个。

1 个答案:

答案 0 :(得分:1)

slurm日志文件明确包含该信息。它也会写入作业的输出文件,例如:

JOB <jobid> CANCELLED AT <time> DUE TO TIME LIMIT

Job <jobid> exceeded <mem> memory limit, being killed:

JOB <jobid> CANCELLED AT <time> DUE TO NODE FAILURE