找不到nvidia-smi可执行文件

时间:2017-11-04 08:58:42

标签: docker nvidia-docker

我在nvidia-docker repo中就这个确切的问题经历了3个不同的问题,但实际上无法弄清楚是什么问题。

我是一个沉重的码头用户,但我不太了解这些问题中使用的术语和解决方案。

当我以sudo或不运行nvidia-smi时,一切都很好,我得到了标准输出。 我的nvidia-docker-plugin启动并运行,我在运行nvidia-docker run --rm nvidia/cuda nvidia-smi时收到这些消息:

  

nvidia-docker-plugin | 2017/11/04 09:14:18收到卷'nvidia_driver_387.22'的挂载请求   大段引用   nvidia-docker-plugin | 2017/11/04 09:14:18收到卷'nvidia_driver_387.22'的卸载请求

我还试图运行deepo存储库,无法让它工作,因为我的所有容器在启动时退出,nvidia-docker run --rm nvidia/cuda nvidia-smi输出错误:

  

container_linux.go:247:启动容器进程导致“exec:\”nvidia-smi \“:$ PATH中找不到可执行文件”   / usr / bin / docker-current:来自守护进程的错误响应:oci运行时错误:container_linux.go:247:启动容器进程导致“exec:\”nvidia-smi \“:$ PATH中找不到可执行文件”。

我做错了什么?

我运行Fedora 26,如果它有任何区别

2 个答案:

答案 0 :(得分:0)

在Ubuntu上,您应该安装s包。据我所知,Fedora中也存在这种情况。出于某种原因,这种依赖性不需要记录。

答案 1 :(得分:0)

我刚刚解决了这个问题。

删除与nvidia-docker-plugin相关的卷解决了问题。

对于未来的读者,只需读出nvidia-docker-plugin上的日志消息,查找挂载/取消挂载的行,然后使用以下命令删除卷

docker volume rm -f <volume_to_remove>其中volume_to_remove应该类似nvidia_driver_387.22(符合我的情况)

似乎问题是,nvidia-smi调用的映射是在创建卷时进行的,并且删除并重新附加卷修复此