我在SLURM集群中有一份工作停止了,现在说“预先”,这是什么意思?

时间:2018-05-15 01:20:26

标签: slurm

我在SLURM集群中运行了一份工作,有一段时间,这项工作运行得很好。我最后一次使用队列命令squeue报告:

JOBID   PARTITION NAME     USER    ST     TIME  NODES NODELIST(REASON)
2394852 serial_re CombineP user_1  R      22:29 1     bigcluster112

但是,我刚检查过它,现在说:

JOBID   PARTITION NAME     USER    ST     TIME  NODES NODELIST(REASON)
2394852 serial_re CombineP user_1  PD     0:00      1 (Priority)

我收到一封电子邮件说这份工作已经“预先”了。我在网上搜索,它说当有一个高优先级的工作时,低优先级的工作将在高优先级工作时停止。这是一个共享的大学集群。我没有做任何其他工作。这是否意味着其他人只是找了一份工作,现在把我的工作放在一个低优先级的工作?如何设置或击败该优先级?谢谢!

1 个答案:

答案 0 :(得分:1)

是的,有人提交了具有更高优先级的作业,或者具有优先于其他QOS的抢占权的QOS,或者是对其他分区具有抢占权的分区。

寻找' Preempt'在scontrol show configscontrol show partitionssacctmgr list qos的输出中获取更多信息。

要了解优先级的计算方法,请查看scontrol show config | grep Priority的输出,并在slurm.conf manpage中查找相应的关键字。