我在SLURM集群中运行了一份工作,有一段时间,这项工作运行得很好。我最后一次使用队列命令squeue
报告:
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
2394852 serial_re CombineP user_1 R 22:29 1 bigcluster112
但是,我刚检查过它,现在说:
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
2394852 serial_re CombineP user_1 PD 0:00 1 (Priority)
我收到一封电子邮件说这份工作已经“预先”了。我在网上搜索,它说当有一个高优先级的工作时,低优先级的工作将在高优先级工作时停止。这是一个共享的大学集群。我没有做任何其他工作。这是否意味着其他人只是找了一份工作,现在把我的工作放在一个低优先级的工作?如何设置或击败该优先级?谢谢!
答案 0 :(得分:1)
是的,有人提交了具有更高优先级的作业,或者具有优先于其他QOS的抢占权的QOS,或者是对其他分区具有抢占权的分区。
寻找' Preempt'在scontrol show config
,scontrol show partitions
和sacctmgr list qos
的输出中获取更多信息。
要了解优先级的计算方法,请查看scontrol show config | grep Priority
的输出,并在slurm.conf manpage中查找相应的关键字。