动态决定运行哪个GPU - 在NVIDIA docker上{TF

时间:2018-03-12 07:14:20

标签: docker tensorflow cuda nvidia-docker

我有一个模型队列,我只允许2个并行执行,因为我有2个GPU。 为此,在我的代码的开头,我尝试使用GPUtil确定哪些GPU可用。也许是相关的,这个代码在使用--runtime=nvidia标志启动的docker容器中运行。

确定要运行哪个GPU的代码如下所示:

import os
import GPUtil
gpu1, gpu2 = GPUtil.getGPUs()

available_gpu = gpu1 if gpu1.memoryFree > gpu2.memoryFree else gpu2
os.environ['CUDA_VISIBLE_DEVICES'] = str(available_gpu.id)

import tensorflow as tf

现在,我以这种方式启动了两个脚本(稍微延迟,直到第一个脚本占用GPU),但他们都试图使用相同的GPU!

我进一步研究了这个问题 - 我手动设置os.environ['CUDA_VISIBLE_DEVICES'] = '1'并让模型运行。 在训练时,我检查了nvidia-smi的输出并看到了以下内容

user@server:~$ docker exec awesome_gpu_container nvidia-smi
Mon Mar 12 06:59:27 2018       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.111                Driver Version: 384.111                   |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 980 Ti  Off  | 00000000:01:00.0  On |                  N/A |
|  0%   50C    P2   131W / 280W |   5846MiB /  6075MiB |     81%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 1080    Off  | 00000000:03:00.0 Off |                  N/A |
|  0%   39C    P8    14W / 200W |      2MiB /  8114MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

我注意到,虽然我已将可见设备设为1,但它实际上是在0上运行

我再次强调,我的任务是在排队多个模型时,每个开始运行的模型将决定使用哪个GPU。

我探索了allow_soft_placement=True,但是在两个GPU上分配了内存,所以我停止了这个过程。

最重要的是,如何确保我的训练脚本只使用一个GPU,让他们选择免费的?

1 个答案:

答案 0 :(得分:3)

CUDA programming guide中所述,CUDA使用的默认设备枚举是“最快的”:

  

CUDA_ DEVICE_ ORDER

     

FASTEST_FIRST,PCI_BUS_ID,(默认为FASTEST_FIRST)

     

FASTEST_FIRST导致CUDA猜测哪个设备是   使用简单的启发式最快,并使该设备0,离开   未指定其余设备的顺序。

     

PCI_BUS_ID按PCI总线ID按升序对设备进行排序。

如果设置CUDA_​DEVICE_​ORDER=PCI_BUS_ID,则CUDA排序将与nvidia-smi显示的设备排序相匹配。

由于您使用的是docker,您还可以使用我们的运行时强制隔离:
docker run --runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=0 ...
但这是在容器启动时。