cuda / nvidia-driver与自定义容器的sagemaker不匹配

时间:2018-06-14 13:39:59

标签: amazon-sagemaker nvidia-docker

我有一个自定义容器(派生自nvidia/cuda:9.0-runtime)来运行sagemaker培训。但是在启动时我得到的错误CUDA driver version is insufficient for CUDA runtime version at torch/csrc/cuda/Module.cpp:32显然是想告诉我的cuda版本不支持图形驱动程序(......将这两个版本号与错误消息一起公开会有多好。 ..),但我无法弄清楚如何找出容器中安装的显示驱动程序。我能找到的就是它说sagemaker有nvidia-docker buildin。我在发生错误之前尝试触发nvidia-smi,但该命令在容器中是未知的。有一个神秘的句子

"If you plan to use GPU devices for model inferences (by specifying 
GPU-based ML compute instances in your CreateEndpointConfig request),
make sure that your containers are nvidia-docker compatible."

我很确定是这种情况,但是没有复选框或其他任何东西可以切换"运行此容器并使用主机GPU访问"。我有什么想法可以继续吗?

1 个答案:

答案 0 :(得分:1)

卫生署!发现问题,我选择ml.m4.xlarge作为实例类型,显然那些没有GPU /没有共享它。切换到ml.p2.xlarge解决了问题。