如何在排水状态下“消除”slurm节点

时间:2015-04-09 09:47:24

标签: slurm

使用sinfo,它显示3个节点处于drain状态,

PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
all*         up   infinite      3  drain node[10,11,12]

用于取消此类节点的命令行?

4 个答案:

答案 0 :(得分:20)

找到一种方法,输入scontrol解释器(在命令行类型scontrol中)然后

scontrol: update NodeName=node10 State=DOWN Reason="undraining"
scontrol: update NodeName=node10 State=RESUME

然后

scontrol: show node node10

显示其他信息

State=IDLE

更新:其中一些节点恢复了DRAIN状态;注意到他们的根分区在例如显示show node a10的{​​{1}},因此在Ubuntu Reason=SlurmdSpoolDir is full中删除了sudo apt-get clean个内容,并且还压缩了一些/var/cache/apt个文件。

答案 1 :(得分:12)

如果将其设置为关闭,则所有作业都将被终止。

将节点设置为RESUME。

答案 2 :(得分:8)

如果该节点上当前没有作业在运行:

scontrol update nodename=node10 state=idle

如果作业正在节点上运行:

scontrol update nodename=node10 state=resume

答案 3 :(得分:1)

节点处于DRAIN状态的另一个原因是,关于系统的事实与/etc/slurm/slurm.conf文件中声明的事实不匹配。例如,如果slurm.conf文件声明一个节点有4个GPU,但是slurm守护程序仅找到3个GPU,由于不匹配,它将标记该节点为“ drain”。或者,如果在slurm.conf中将节点声明为具有128G的内存,而slurm守护程序仅找到96G,它还将状态设置为“ drain”。

不匹配的原因码由'scontrol show node'命令显示为输出的最后一行。