sbatch将计算节点发送到“耗尽”状态

时间:2019-03-22 15:49:50

标签: slurm sbatch

在我们的小型集群中新安装和配置的计算节点上,我无法使用批处理脚本和“ sbatch”命令提交Slurm作业。提交后,请求的节点将变为“已耗尽”状态。但是,我可以使用'srun'交互式地运行同一命令。

作品:
    srun -p debug --ntasks=1 --nodes=1 --job-name=test --nodelist=node6 -l echo 'test'

不起作用:
sbatch test.slurm
test.slurm

#!/bin/sh
#SBATCH --job-name=test
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --nodelist=node6
#SBATCH --partition=debug

echo 'test'

它给了我

PARTITION  AVAIL  TIMELIMIT  NODES  STATE NODELIST
debug         up    1:00:00      1  drain node6

我必须恢复该节点。

所有节点都运行Debian 9.8,使用Infiniband和NIS。 我确保所有节点都具有相同的配置,运行的软件包和守护程序版本。所以,我看不到我所缺少的。

1 个答案:

答案 0 :(得分:0)

似乎该问题与当前的NIS有关。只需将以下行添加到/ etc / passwd的末尾:

+::::::

并在节点上重新启动slurmd:

/etc/init.d/slurmd restart