官方的PyTorch Docker image基于nvidia/cuda
,它可以在Docker CE上运行,而无需任何GPU。我猜它也可以在nvidia-docker上运行,我认为已启用CUDA支持。是否可以在没有任何GPU的x86 CPU上运行nvidia-docker本身?有没有一种构建单个Docker映像的方法,该映像在可用时(例如,在nvidia-docker
内部运行时)利用CUDA支持,否则使用CPU?在Docker CE内部使用torch.cuda
会发生什么? Docker CE之间到底有什么区别?为什么nvidia-docker
无法合并到Docker CE中?
答案 0 :(得分:5)
nvidia-docker
是docker --runtime nvidia
的快捷方式。我确实希望他们有一天可以合并它,但是现在它是第三方运行时。他们在GitHub page上解释了它的含义和作用。
runc的修改版本,向所有容器添加了自定义的预启动钩子。 如果在OCI规范中设置了环境变量NVIDIA_VISIBLE_DEVICES,则该钩子将利用libnvidia-container项目中的nvidia-container-cli为容器配置GPU访问。
没有什么可以阻止您使用常规nvidia-docker
运行用于docker
的映像。它们工作得很好,但是如果您在其中运行需要GPU的东西,那将会失败。
我认为您无法在没有GPU的计算机上运行nvidia-docker
。它无法找到要查找的CUDA文件,并且会出错。
要创建可同时在docker
和nvidia-docker
上运行的映像,其中的程序必须能够知道它在哪里运行。我不确定是否有官方方法,但是您可以尝试以下方法之一:
nvidia-smi
是否可用$CUDA_LIB_PATH
中指定的目录是否存在