我们有一个由25个节点组成的小型集群运行Slurm,其节点可分为多个类别,因为所有节点都不相同。我们有更大/更强大的节点,以及小/弱节点
所有这些节点大部分基本上都在一个分区中,我们使用各种作业请求设置来指定作业所获得的节点。
我们还在所有节点上使用权重设置,以便小作业首先转到小/弱节点,而不占用较大节点上的空间。
这就是问题所在:如果节点 on ,(我们使用Slurm的省电功能来关闭未使用的节点),它会按预期工作。一个小工作进入一个小节点
但是,如果节点 off ,(当前没有可以使用它的节点),分配的节点似乎忽略了权重设置,并且似乎无处可去。 一个小作业最终可能被分配到并打开一个大节点。当一些节点打开但是在使用中,其他节点关闭时,它似乎显示最多。
有人可以对此有所了解吗?