在我们的本地集群中,Slurm存在以下问题。 用户A发送了许多作业,这些作业以较高的优先级填充了集群,并希望腾出一些节点供用户B使用。这样,即使资源非常少,用户B仍可以继续工作。
实现和问题:用户A排除了一些节点,当他们运行时这些节点确实是空的。但是,即使它们为空,用户B的作业仍不会在这些节点上启动!这可能是由于以下事实:用户A的作业比B的优先级高得多,但是如果有可用资源,用户B的作业仍应使用它们。
所以也许排除节点不是在Slurm上实现这一目标的方法吗?我们还能怎么做我们想要的?
答案 0 :(得分:0)
第一件事是确保启用了回填。检查配置文件中的SchedulerType
,该文件应为sched/backfill
。
然后,您应该考虑以下之一: