无法使用Slurm将作业限制为在2个GPU节点上使用单个GPU

时间:2018-09-20 03:20:59

标签: tensorflow gpu slurm nvidia-docker

p.s非常令人目结舌,整个gpu

我已经安装了nvidia docker和slurm,并且我的机器有2个GPU。我想将Slurm用作工作负载管理器。

1)我们可以确保使用srun提交的作业仅使用机器中两个gpu中的一个gpu吗? 2)我们如何知道正在使用哪个GPU? 3)我目前正在运行如下的tensorflow mnist程序 srun --gres = gpu:1 -n 1 -l nvidia-docker运行docker image mnist.py --num_gpus = 2 在上面的命令中,即使我们明确提到使用1 gpu张量流,仍然使用了机器中存在的2 gpu,而不是失败 4)我没有正确配置slurm.conf和gres.conf吗?如果可以,有人可以帮助我什么都需要包括在内。

预先感谢

0 个答案:

没有答案