情况:我在1个节点中有4个GPU,我想为每个组分组2个GPU。
简单地说,
node0有gpu0,gpu1,gpu2,gpu3
第1组:gpu0,gpu1
Slurm提供partition to group "nodes" into logical sets,但分区不用于在节点内进行分组。如果分区不适合这种情况,你能为此提出另一个逻辑概念吗?
答案 0 :(得分:1)
您可以在/etc/slurm/gres.conf文件中使用不同的名称类型在Slurm中对GPU进行分组。例子:
NodeName=node01[2-3] Name=gpu Type=gtx1060 File=/dev/nvidia[0-1] CPUs=0-7
NodeName=node01[2-3] Name=gpu Type=gtx1080 File=/dev/nvidia[2-3] CPUs=8-15
使用以下命令在提交脚本中选择GPU:
#SBATCH --gres=gpu:gtx1080:1