由于时间限制,作业被意外取消

时间:2016-01-07 10:49:06

标签: time limit slurm

我工作的集群上有几个分区。使用sinfo我可以看到每个分区的时间限制。我将我的代码用于mid1分区,其时间限制为8-00:00:00,据我所知,时间限制为8天。我不得不等待1-15:23:41,这意味着将近1天15个小时。但是,我的代码仅运行00:02:24,这意味着将近2.5分钟(解决方案正在收敛)。此外,我没有在使用sbatch提交的文件中设置时间限制。我的代码停止的原因是:

 JOB 3216125 CANCELLED AT 2015-12-19T04:22:04 DUE TO TIME LIMIT

那么,如果我没有超过时间限制,为什么我的代码被停止了?我向那些负责集群的人问这个问题,但他们没有回来。

1 个答案:

答案 0 :(得分:3)

查看DefaultTime输出中scontrol show partitions的值。如果您未使用--time自行指定,则这是分配给作业的最长时间。

最有可能将此值设置为2分钟,以强制您指定合理的时间限制(在分区范围内)。