Question

我正在呼叫scontrol reboot <nodename>来重新启动SLURM群集中的计算节点。

重新引导通常超时（从SLURM看），并且节点设置为状态“ DOWN”。（RESUME_TIMEOUT设置为300）。

这大概是因为slurmd服务在启动后不会自动启动。
默认情况下，该服务为“禁用”：

[root@c1 ~]# systemctl status slurmd
● slurmd.service - Slurm node daemon
   Loaded: loaded (/usr/lib/systemd/system/slurmd.service; disabled; vendor preset: disabled)
   Active: inactive (dead)

使用systemctl enable slurmd激活它不会在下一次重新启动后持续，然后该服务再次被“禁用”。
我认为这是因为更改不会在用于引导的映像中发生。

如何在计算上启用slurmd服务，使其在启动时启动并且scontrol reboot有效？

Answer 1

我通过OpenHPC邮件列表收到了来自AntanasBudriūnas的回复，该邮件已解决了该问题。

(execute on master node)
# chroot /<path>/<to>/<cnode>/<image>
# systemctl enable slurmd
# exit

Answer 2

这可能不是推荐的方法，但是我在工作中设置了一个小型集群，而修复它的方法是使用cronjob：

@reboot /usr/bin/scontrol update nodename=[put hostname here] state=resume

重新启动后自动启动计算上的`slurmd`服务

2 个答案: