我工作的集群上有几个分区。使用sinfo
我可以看到每个分区的时间限制。我将我的代码用于mid1
分区,其时间限制为8-00:00:00
,据我所知,时间限制为8天。我不得不等待1-15:23:41
,这意味着将近1天15个小时。但是,我的代码仅运行00:02:24
,这意味着将近2.5分钟(解决方案正在收敛)。此外,我没有在使用sbatch
提交的文件中设置时间限制。我的代码停止的原因是:
JOB 3216125 CANCELLED AT 2015-12-19T04:22:04 DUE TO TIME LIMIT
那么,如果我没有超过时间限制,为什么我的代码被停止了?我向那些负责集群的人问这个问题,但他们没有回来。
答案 0 :(得分:3)
查看DefaultTime
输出中scontrol show partitions
的值。如果您未使用--time
自行指定,则这是分配给作业的最长时间。
最有可能将此值设置为2分钟,以强制您指定合理的时间限制(在分区范围内)。