p.s非常令人目结舌,整个gpu
我已经安装了nvidia docker和slurm,并且我的机器有2个GPU。我想将Slurm用作工作负载管理器。
1)我们可以确保使用srun提交的作业仅使用机器中两个gpu中的一个gpu吗? 2)我们如何知道正在使用哪个GPU? 3)我目前正在运行如下的tensorflow mnist程序 srun --gres = gpu:1 -n 1 -l nvidia-docker运行docker image mnist.py --num_gpus = 2 在上面的命令中,即使我们明确提到使用1 gpu张量流,仍然使用了机器中存在的2 gpu,而不是失败 4)我没有正确配置slurm.conf和gres.conf吗?如果可以,有人可以帮助我什么都需要包括在内。
预先感谢