Question

我有一个自定义容器（派生自nvidia/cuda:9.0-runtime）来运行sagemaker培训。但是在启动时我得到的错误CUDA driver version is insufficient for CUDA runtime version at torch/csrc/cuda/Module.cpp:32显然是想告诉我的cuda版本不支持图形驱动程序（......将这两个版本号与错误消息一起公开会有多好。 ..），但我无法弄清楚如何找出容器中安装的显示驱动程序。我能找到的就是它说sagemaker有nvidia-docker buildin。我在发生错误之前尝试触发nvidia-smi，但该命令在容器中是未知的。有一个神秘的句子

"If you plan to use GPU devices for model inferences (by specifying 
GPU-based ML compute instances in your CreateEndpointConfig request),
make sure that your containers are nvidia-docker compatible."

我很确定是这种情况，但是没有复选框或其他任何东西可以切换＆＃34;运行此容器并使用主机GPU访问＆＃34;。我有什么想法可以继续吗？

Answer 1

卫生署！发现问题，我选择ml.m4.xlarge作为实例类型，显然那些没有GPU /没有共享它。切换到ml.p2.xlarge解决了问题。

cuda / nvidia-driver与自定义容器的sagemaker不匹配

1 个答案: