解决SLURM“批处理:错误:批处理作业提交失败:请求的节点配置不可用”错误

时间:2019-03-21 23:13:59

标签: cluster-computing batch-processing slurm

我们的本地集群中有4个GPU节点,带有2个36核CPU和200 GB RAM。当我尝试使用以下配置提交工作时:

#SBATCH --nodes=1
#SBATCH --ntasks=40
#SBATCH --cpus-per-task=1
#SBATCH --mem-per-cpu=1500MB
#SBATCH --gres=gpu:4
#SBATCH --time=0-10:00:00

我遇到以下错误:

  

sbatch:错误:批处理作业提交失败:请求的节点配置不可用

此错误的原因可能是什么?节点正是我需要的那种硬件...

2 个答案:

答案 0 :(得分:1)

CPU最有可能是36线程而不是36内核,并且Slurm可能配置为分配内核而不是线程。

检查scontrol show nodes的输出以查看节点真正提供了什么。

答案 1 :(得分:0)

您要在具有36个CPU的节点上请求40个任务。默认的SLURM配置将任务绑定到核心,因此将任务减少到36个或更少可能可行。 (或者将节点增加到2,如果您的应用程序可以处理的话)