我正在尝试提交这份工作:
sbatch --gres=gpu:v100:1 -p defq -J convolutional-mnist /cm/shared/jobs/convolutional-mnist/convolutional-mnist.slurm
sbatch:错误:批处理作业提交失败:请求的节点配置不可用
但是配置似乎正确。这是sinfo的输出:
$ sinfo -o "%.10P %.5a %.10l %.6D %.6t %.20N %.10G"
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST GRES
defq* up infinite 1 idle cnode001 gpu:v100:1
defq* up infinite 2 idle cnode[002-003] (null)
idle up infinite 1 idle cnode001 gpu:v100:1
idle up infinite 2 idle cnode[002-003] (null)
long up infinite 1 idle cnode001 gpu:v100:1
long up infinite 2 idle cnode[002-003] (null)
请注意,节点cnode001属于defq,并且具有gres字符串gpu:v100:1。
我不明白为什么Slurm在说请求的节点配置不可用。
我们将不胜感激。
答案 0 :(得分:0)
提交脚本/cm/shared/jobs/convolutional-mnist/convolutional-mnist.slurm
中包含什么?正如Poshi所建议的,此脚本是否可能为defq
分区设置了一组冲突的参数?如果您省略-p defq
可以正常工作吗?