我有一个slurm分区,有一堆节点,目前都被占用了。我可以看到squeue
有很多(较新的)待处理作业的QoS优先级高于当前正在运行的作业。我怎么弄清楚Slurm为什么不先发制人呢?
我的slurm.conf
:
# PREEMPTION
PreemptType=preempt/qos
PreemptMode=REQUEUE
# PRIORITY
PriorityType=priority/multifactor
PriorityCalcPeriod=0-1:00:00
PriorityDecayHalfLife=0-0:1:00
PriorityWeightFairshare=0
PriorityWeightAge=0
PriorityWeightPartition=0
PriorityWeightJobSize=0
PriorityWeightQOS=10000
PriorityMaxAge=7-0
PartitionName=regular Nodes=snod[01-64],bsnod[01-18] Shared=NO Priority=100 Default=YES
是否有某种日志,我可以看到它正在执行抢占检查或其他什么? 谢谢!
答案 0 :(得分:0)
slurm.conf
文件有一个DebugFlags
选项,您应将其设置为Priority,Backfill,SelectType
。另外,请确保选项SlurmctldDebug
设置为verbose
或debug
。然后,您可以在SlurmctldLogFile
中提到的文件中找到日志。