让slurmctld“认为”节点是空闲的〜就像在“SuspendProgram”之后,但实际上它们在启动时会关闭

时间:2015-02-25 22:47:51

标签: amazon-web-services amazon-ec2 slurm

有没有办法在关闭执行节点的情况下启动slurmctld守护程序,但是让它相信他已经请求暂停这些节点(例如,如果它已经调用 SuspendProgram )? / p>

我正在设置虚拟群集,因此 SuspendProgram ResumeProgram 会终止并实例化虚拟机。通过这种方式,我只能启动主节点,并且只有在请求时才会启动节点。

问题是,目前,当我开始使用slurmctld时,我需要节点起来,告诉他他们退出,并等待他关闭它们。这增加了不必要的成本,因为我需要支持所有"假设的"实例

我想实现一个运行slurmctld的主服务器,并让他认为节点空闲〜就像在 SuspendProgram 之后一样。

干杯

1 个答案:

答案 0 :(得分:1)

您可以尝试将节点设置为POWER_DOWN中的状态slurm.conf,以便在启动时,slurmctld会将这些节点视为SuspendProgram

NodeName=... Sockets=... CoresPerSocket... [etc] State=POWER_DOWN