我正在呼叫scontrol reboot <nodename>
来重新启动SLURM群集中的计算节点。
重新引导通常超时(从SLURM看),并且节点设置为状态“ DOWN”。 (RESUME_TIMEOUT设置为300)。
这大概是因为slurmd
服务在启动后不会自动启动。
默认情况下,该服务为“禁用”:
[root@c1 ~]# systemctl status slurmd
● slurmd.service - Slurm node daemon
Loaded: loaded (/usr/lib/systemd/system/slurmd.service; disabled; vendor preset: disabled)
Active: inactive (dead)
使用systemctl enable slurmd
激活它不会在下一次重新启动后持续,然后该服务再次被“禁用”。
我认为这是因为更改不会在用于引导的映像中发生。
如何在计算上启用slurmd
服务,使其在启动时启动并且scontrol reboot
有效?
答案 0 :(得分:1)
我通过OpenHPC邮件列表收到了来自AntanasBudriūnas的回复,该邮件已解决了该问题。
(execute on master node)
# chroot /<path>/<to>/<cnode>/<image>
# systemctl enable slurmd
# exit
答案 1 :(得分:0)
这可能不是推荐的方法,但是我在工作中设置了一个小型集群,而修复它的方法是使用cronjob:
@reboot /usr/bin/scontrol update nodename=[put hostname here] state=resume