批处理作业提交失败:请求的节点配置不可用

时间:2019-01-22 21:08:23

标签: slurm

我正在尝试提交这份工作:

sbatch --gres=gpu:v100:1 -p defq -J convolutional-mnist /cm/shared/jobs/convolutional-mnist/convolutional-mnist.slurm

sbatch:错误:批处理作业提交失败:请求的节点配置不可用

但是配置似乎正确。这是sinfo的输出:

$ sinfo -o "%.10P %.5a %.10l %.6D %.6t %.20N %.10G"
PARTITION AVAIL  TIMELIMIT  NODES  STATE             NODELIST       GRES
 defq*    up   infinite      1   idle             cnode001 gpu:v100:1
 defq*    up   infinite      2   idle       cnode[002-003]     (null)
  idle    up   infinite      1   idle             cnode001 gpu:v100:1
  idle    up   infinite      2   idle       cnode[002-003]     (null)
  long    up   infinite      1   idle             cnode001 gpu:v100:1
  long    up   infinite      2   idle       cnode[002-003]     (null)

请注意,节点cnode001属于defq,并且具有gres字符串gpu:v100:1。

我不明白为什么Slurm在说请求的节点配置不可用。

我们将不胜感激。

1 个答案:

答案 0 :(得分:0)

提交脚本/cm/shared/jobs/convolutional-mnist/convolutional-mnist.slurm中包含什么?正如Poshi所建议的,此脚本是否可能为defq分区设置了一组冲突的参数?如果您省略-p defq可以正常工作吗?