我有一个自定义容器(派生自nvidia/cuda:9.0-runtime
)来运行sagemaker培训。但是在启动时我得到的错误CUDA driver version is insufficient for CUDA runtime version at torch/csrc/cuda/Module.cpp:32
显然是想告诉我的cuda版本不支持图形驱动程序(......将这两个版本号与错误消息一起公开会有多好。 ..),但我无法弄清楚如何找出容器中安装的显示驱动程序。我能找到的就是它说sagemaker有nvidia-docker buildin。我在发生错误之前尝试触发nvidia-smi
,但该命令在容器中是未知的。有一个神秘的句子
"If you plan to use GPU devices for model inferences (by specifying
GPU-based ML compute instances in your CreateEndpointConfig request),
make sure that your containers are nvidia-docker compatible."
我很确定是这种情况,但是没有复选框或其他任何东西可以切换"运行此容器并使用主机GPU访问"。我有什么想法可以继续吗?
答案 0 :(得分:1)
卫生署!发现问题,我选择ml.m4.xlarge
作为实例类型,显然那些没有GPU /没有共享它。切换到ml.p2.xlarge
解决了问题。