我刚刚开始学习slurm,热量,我有一些问题。
我有一个使用ansible和heat创建的现有slurm集群。 Heat创建集群,ansible只需在所有节点上安装/配置所有必需的软件。
现在我想将新的计算节点添加到现有群集中。我尝试过“openstack update'命令,但它将重建所有现有节点。是否有适当的方法来添加新的计算节点而不重建现有的计算节点?
我还使用ceilometer查看了基于cpu使用情况的自动缩放。这似乎有效,但没有重新启动slurm,如何让slurm集群中的现有节点知道添加了新的计算节点?是否可以在不重新启动的情况下修改slurm.conf,slurmdbd.conf,/ etc / hosts,knownhosts等?
目标是当cpu使用率达到一定水平时,静默添加新的计算节点并将它们配置为现有群集的一部分。
谢谢,
答案 0 :(得分:0)
这是slurm的局限性之一,修改配置文件或添加新节点肯定需要其余slurm守护程序或重新加载slurmctld守护程序才能读取您所做的新配置更改。
只要将slurm.conf集中存储在NFS上,可以很好地重装控制器守护程序,但是您可能会看到来自其他节点的一些警告