我们的本地集群中有4个GPU节点,带有2个36核CPU和200 GB RAM。当我尝试使用以下配置提交工作时:
#SBATCH --nodes=1
#SBATCH --ntasks=40
#SBATCH --cpus-per-task=1
#SBATCH --mem-per-cpu=1500MB
#SBATCH --gres=gpu:4
#SBATCH --time=0-10:00:00
我遇到以下错误:
sbatch:错误:批处理作业提交失败:请求的节点配置不可用
此错误的原因可能是什么?节点正是我需要的那种硬件...
答案 0 :(得分:1)
CPU最有可能是36线程而不是36内核,并且Slurm可能配置为分配内核而不是线程。
检查scontrol show nodes
的输出以查看节点真正提供了什么。
答案 1 :(得分:0)
您要在具有36个CPU的节点上请求40个任务。默认的SLURM配置将任务绑定到核心,因此将任务减少到36个或更少可能可行。 (或者将节点增加到2,如果您的应用程序可以处理的话)