salloc:错误:作业提交/分配失败:无效的功能说明

时间:2020-08-28 07:03:46

标签: slurm

我遇到了lur漏错误。

我登录到slurm控制器以验证slurm是否正常工作

$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
debug*       up   infinite      8   idle ip-192-168-73-[129,179],.....

检查节点是否被正确识别

$ scontrol show nodes

不确定无效的功能说明意味着什么

对应的salloc命令是

N2=$(($N*2))
salloc -N $N2 '--constraint=[worker*"$N"&server*"$N"] test' \
           $CLUSTER_SHARED_FOLDER/scripts/$CLUSTER_CONTROLLER_SH \
           2>&1 | tee $CLUSTER_OUTPUT_LOG \

1 个答案:

答案 0 :(得分:0)

该错误是因为群集包含8个节点。但是,srun命令是

N2=$(($N*2))
salloc -N $N2 '--constraint=[worker*"$N"&server*"$N"] test' \
           $CLUSTER_SHARED_FOLDER/scripts/$CLUSTER_CONTROLLER_SH \
           2>&1 | tee $CLUSTER_OUTPUT_LOG \

即工作程序和服务器的数量大于节点的数量。这种不匹配导致salloc命令给出了无效的规范错误。

解决方法是确保工作者数=可用节点数

N2=$(($N))
salloc -N $N2 '--constraint=[worker*"$N"] test' \
           $CLUSTER_SHARED_FOLDER/scripts/$CLUSTER_CONTROLLER_SH \
           2>&1 | tee $CLUSTER_OUTPUT_LOG \