我如何调试为什么Slurm不抢占低优先级的工作?

时间:2017-06-24 23:27:57

标签: slurm

我有一个slurm分区,有一堆节点,目前都被占用了。我可以看到squeue有很多(较新的)待处理作业的QoS优先级高于当前正在运行的作业。我怎么弄清楚Slurm为什么不先发制人呢?

我的slurm.conf

的摘录
# PREEMPTION
PreemptType=preempt/qos
PreemptMode=REQUEUE

# PRIORITY 
PriorityType=priority/multifactor
PriorityCalcPeriod=0-1:00:00
PriorityDecayHalfLife=0-0:1:00
PriorityWeightFairshare=0
PriorityWeightAge=0
PriorityWeightPartition=0
PriorityWeightJobSize=0
PriorityWeightQOS=10000
PriorityMaxAge=7-0

PartitionName=regular   Nodes=snod[01-64],bsnod[01-18] Shared=NO Priority=100 Default=YES

是否有某种日志,我可以看到它正在执行抢占检查或其他什么? 谢谢!

1 个答案:

答案 0 :(得分:0)

slurm.conf文件有一个DebugFlags选项,您应将其设置为Priority,Backfill,SelectType。另外,请确保选项SlurmctldDebug设置为verbosedebug。然后,您可以在SlurmctldLogFile中提到的文件中找到日志。