应用错误收集

p.s非常令人目结舌，整个gpu

我已经安装了nvidia docker和slurm，并且我的机器有2个GPU。我想将Slurm用作工作负载管理器。

1）我们可以确保使用srun提交的作业仅使用机器中两个gpu中的一个gpu吗？ 2）我们如何知道正在使用哪个GPU？ 3）我目前正在运行如下的tensorflow mnist程序 srun --gres = gpu：1 -n 1 -l nvidia-docker运行docker image mnist.py --num_gpus = 2 在上面的命令中，即使我们明确提到使用1 gpu张量流，仍然使用了机器中存在的2 gpu，而不是失败 4）我没有正确配置slurm.conf和gres.conf吗？如果可以，有人可以帮助我什么都需要包括在内。

预先感谢

无法使用Slurm将作业限制为在2个GPU节点上使用单个GPU

0 个答案: