我使用配置为在启用GPU的EC2实例上进行机器学习的自定义图像(AMI)。
这意味着cuda
,libcudnn6
,nvidia-docker
等均已正确设置在它们上。
但是,当Kops从这些AMI启动新节点时(我使用cluster-autoscaler),它将覆盖我正确设置的docker。
如何预防?
目前,我在启动时运行了一个自定义脚本,该脚本可以正确地重新安装nvidia-docker
,但这显然不理想。
答案 0 :(得分:0)
Kops仅在预期使用的版本与节点上已安装的版本之间存在差异的情况下才安装docker。
请注意,Kops将降级码头工人if the installed version is higher than what it expects!
因此,解决我的问题的方法是拥有一个与spec.docker.version
匹配的预安装版本。
为此,我们必须将docker降级为17.03.2
,将nvidia-docker降级为2.0.3+docker17.03.2-1
。