我遇到了lur漏错误。
我登录到slurm控制器以验证slurm是否正常工作
$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug* up infinite 8 idle ip-192-168-73-[129,179],.....
检查节点是否被正确识别
$ scontrol show nodes
不确定无效的功能说明意味着什么
对应的salloc命令是
N2=$(($N*2))
salloc -N $N2 '--constraint=[worker*"$N"&server*"$N"] test' \
$CLUSTER_SHARED_FOLDER/scripts/$CLUSTER_CONTROLLER_SH \
2>&1 | tee $CLUSTER_OUTPUT_LOG \
答案 0 :(得分:0)
该错误是因为群集包含8个节点。但是,srun命令是
N2=$(($N*2))
salloc -N $N2 '--constraint=[worker*"$N"&server*"$N"] test' \
$CLUSTER_SHARED_FOLDER/scripts/$CLUSTER_CONTROLLER_SH \
2>&1 | tee $CLUSTER_OUTPUT_LOG \
即工作程序和服务器的数量大于节点的数量。这种不匹配导致salloc命令给出了无效的规范错误。
解决方法是确保工作者数=可用节点数
N2=$(($N))
salloc -N $N2 '--constraint=[worker*"$N"] test' \
$CLUSTER_SHARED_FOLDER/scripts/$CLUSTER_CONTROLLER_SH \
2>&1 | tee $CLUSTER_OUTPUT_LOG \