谷歌datalab错误安装Nvidia驱动程序和启动docker容器

时间:2018-04-22 21:22:22

标签: google-cloud-datalab

我跟随https://cloud.google.com/datalab/docs/quickstartdatalab beta create-gpu [datalab-instance-name])。实例已创建,但docker容器无法启动:

$docker ps -a

CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES e44d71c07f6e gcr.io/cos-cloud/cos-gpu-installer:latest "/bin/sh -c /entry..." 13 minutes ago Exited (2) 12 minutes ago awesome_brattain 56e54c3d3f6d gcr.io/cos-cloud/cos-gpu-installer:latest "/bin/sh -c /entry..." 14 minutes ago Exited (2) 13 minutes ago naughty_montalcini

难以阅读,但它们都是STATUS =退出

我能看到的第一件坏事:

$ sudo journalctl --since yesterday -fu docker.service有一个奇怪的错误: Apr 22 20:53:30 seth2 dockerd[668]: time="2018-04-22T20:53:30.717669594Z" level=error msg="containerd: start container" error="oci runtime error: container_linux.go:247: starting container process caused \"chdir to cwd (\\\"/content/datalab/notebooks\\\") set in config.json failed: no such file or directory\"\n" id=4795b951f1dbae3a23dae67c2d5aaa7a8bc61e1f4fd6ec58814d241da75b245f

当然,没有/ content目录。 gcloud将磁盘列为READY。

我能看到的第二件坏事:

$ docker logs e44d71c07f6e看起来很好,直到结束:

[INFO 2018-04-22 20:56:33 UTC] Running Nvidia installer /usr/local/nvidia / NVIDIA-Linux-x86_64-384.81.run: 1: NVIDIA-Linux-x86_64-384.81.run: Syntax error: redirection unexpected s

我已经准备好将此测试版功能称为垃圾箱火灾,至少对于那些对GCP而言具有无比性的人来说,并尝试其他提供商。

任何人都有任何我想尝试的想法吗?提前非常感谢你。

1 个答案:

答案 0 :(得分:0)

对不起,你打了这个。

这是我们有a fix的新错误,但该修复程序尚未发布(我们的发布过程至少需要一周时间)。

问题是最近对Container Optimized OS工具的更改破坏了对旧版Nvidia驱动程序的支持。

修复方法是更新Datalab实例使用的驱动程序版本。

在修复程序发布到发行版之前,您可以通过下载the source code for the tool并运行该版本而不是发布的版本来解决此问题。