没有作业在Slurm排除的节点上运行

时间:2018-09-25 09:18:40

标签: slurm

在我们的本地集群中,Slurm存在以下问题。 用户A发送了许多作业,这些作业以较高的优先级填充了集群,并希望腾出一些节点供用户B使用。这样,即使资源非常少,用户B仍可以继续工作。

实现和问题:用户A排除了一些节点,当他们运行时这些节点确实是空的。但是,即使它们为空,用户B的作业仍不会在这些节点上启动!这可能是由于以下事实:用户A的作业比B的优先级高得多,但是如果有可用资源,用户B的作业仍应使用它们。

所以也许排除节点不是在Slurm上实现这一目标的方法吗?我们还能怎么做我们想要的?

1 个答案:

答案 0 :(得分:0)

第一件事是确保启用了回填。检查配置文件中的SchedulerType,该文件应为sched/backfill

然后,您应该考虑以下之一:

  • 为用户B创建reservation,或者
  • 将节点添加到用户B可以提交到的单独partition中,或者
  • 为用户B创建一个QOS,优先级提高,资源有限。