我跟随https://cloud.google.com/datalab/docs/quickstart(datalab beta create-gpu [datalab-instance-name]
)。实例已创建,但docker容器无法启动:
$docker ps -a
:
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
e44d71c07f6e gcr.io/cos-cloud/cos-gpu-installer:latest "/bin/sh -c /entry..." 13 minutes ago Exited (2) 12 minutes ago awesome_brattain
56e54c3d3f6d gcr.io/cos-cloud/cos-gpu-installer:latest "/bin/sh -c /entry..." 14 minutes ago Exited (2) 13 minutes ago naughty_montalcini
难以阅读,但它们都是STATUS =退出
我能看到的第一件坏事:
$ sudo journalctl --since yesterday -fu docker.service
有一个奇怪的错误:
Apr 22 20:53:30 seth2 dockerd[668]: time="2018-04-22T20:53:30.717669594Z" level=error msg="containerd: start container" error="oci runtime error: container_linux.go:247: starting container process caused \"chdir to cwd (\\\"/content/datalab/notebooks\\\") set in config.json failed: no such file or directory\"\n" id=4795b951f1dbae3a23dae67c2d5aaa7a8bc61e1f4fd6ec58814d241da75b245f
当然,没有/ content目录。 gcloud将磁盘列为READY。
我能看到的第二件坏事:
$ docker logs e44d71c07f6e
看起来很好,直到结束:
[INFO 2018-04-22 20:56:33 UTC] Running Nvidia installer
/usr/local/nvidia /
NVIDIA-Linux-x86_64-384.81.run: 1: NVIDIA-Linux-x86_64-384.81.run: Syntax error: redirection unexpected
s
我已经准备好将此测试版功能称为垃圾箱火灾,至少对于那些对GCP而言具有无比性的人来说,并尝试其他提供商。
任何人都有任何我想尝试的想法吗?提前非常感谢你。
答案 0 :(得分:0)
对不起,你打了这个。
这是我们有a fix的新错误,但该修复程序尚未发布(我们的发布过程至少需要一周时间)。
问题是最近对Container Optimized OS工具的更改破坏了对旧版Nvidia驱动程序的支持。
修复方法是更新Datalab实例使用的驱动程序版本。
在修复程序发布到发行版之前,您可以通过下载the source code for the tool并运行该版本而不是发布的版本来解决此问题。