我有一台带4个GPU的服务器(Ubuntu 16.04)。我的团队分享了这一点,我们目前的方法是将我们的所有工作集中到Docker,并使用get
之类的东西将容器限制为GPU。当我们非常清楚谁在使用哪个GPU时,这很有效,但我们的团队已经发展壮大,我想要一种更强大的监控GPU使用方式,并禁止在GPU使用时访问GPU。 $ NV_GPU=0 nvidia-docker run -ti nvidia/cuda nvidia-smi
是使用“GPU-Util”的一个信息渠道,但有时GPU可能会在某个时刻拥有0%的GPU-Util,而当前正由容器中的某个人保留。
您对以下内容有什么建议:
nvidia-smi
$ NV_GPU='gpu_id' nvidia-docker run
我可能也会以错误的方式思考这个问题,因此对其他想法持开放态度。谢谢!