使用sinfo
,它显示3个节点处于drain
状态,
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
all* up infinite 3 drain node[10,11,12]
用于取消此类节点的命令行?
答案 0 :(得分:20)
找到一种方法,输入scontrol解释器(在命令行类型scontrol
中)然后
scontrol: update NodeName=node10 State=DOWN Reason="undraining"
scontrol: update NodeName=node10 State=RESUME
然后
scontrol: show node node10
显示其他信息
State=IDLE
更新:其中一些节点恢复了DRAIN状态;注意到他们的根分区在例如显示show node a10
的{{1}},因此在Ubuntu Reason=SlurmdSpoolDir is full
中删除了sudo apt-get clean
个内容,并且还压缩了一些/var/cache/apt
个文件。
答案 1 :(得分:12)
如果将其设置为关闭,则所有作业都将被终止。
将节点设置为RESUME。
答案 2 :(得分:8)
如果该节点上当前没有作业在运行:
scontrol update nodename=node10 state=idle
如果作业正在节点上运行:
scontrol update nodename=node10 state=resume
答案 3 :(得分:1)
节点处于DRAIN状态的另一个原因是,关于系统的事实与/etc/slurm/slurm.conf文件中声明的事实不匹配。例如,如果slurm.conf文件声明一个节点有4个GPU,但是slurm守护程序仅找到3个GPU,由于不匹配,它将标记该节点为“ drain”。或者,如果在slurm.conf中将节点声明为具有128G的内存,而slurm守护程序仅找到96G,它还将状态设置为“ drain”。
不匹配的原因码由'scontrol show node'命令显示为输出的最后一行。