扩大/缩小slurm集群

时间:2017-02-20 00:11:57

标签: openstack slurm heat

我刚刚开始学习slurm,热量,我有一些问题。

我有一个使用ansible和heat创建的现有slurm集群。 Heat创建集群,ansible只需在所有节点上安装/配置所有必需的软件。

现在我想将新的计算节点添加到现有群集中。我尝试过“openstack update'命令,但它将重建所有现有节点。是否有适当的方法来添加新的计算节点而不重建现有的计算节点?

我还使用ceilometer查看了基于cpu使用情况的自动缩放。这似乎有效,但没有重新启动slurm,如何让slurm集群中的现有节点知道添加了新的计算节点?是否可以在不重新启动的情况下修改slurm.conf,slurmdbd.conf,/ etc / hosts,knownhosts等?

目标是当cpu使用率达到一定水平时,静默添加新的计算节点并将它们配置为现有群集的一部分。

谢谢,

1 个答案:

答案 0 :(得分:0)

这是slurm的局限性之一,修改配置文件或添加新节点肯定需要其余slurm守护程序或重新加载slurmctld守护程序才能读取您所做的新配置更改。

只要将slurm.conf集中存储在NFS上,可以很好地重装控制器守护程序,但是您可能会看到来自其他节点的一些警告