深度学习VM无法通过UI部署-找不到图像资源-图像URL中有错字

时间:2019-09-03 07:09:41

标签: google-dl-platform

我尝试使用TF2.0和GPU部署市场解决方案深度学习VM(Google单击以部署)。我正在通过UI来选择区域和其他实例选项。

但是,一旦我部署并进入Deployment Manager屏幕,我会看到以下错误:

jupyterlab-eu-w-4c-vm: {"ResourceType":"compute.v1.instance","ResourceErrorCode":"400","ResourceErrorMessage":{"code":400,"errors":[{"domain":"global","message":"Invalid value for field 'resource.disks[0].initializeParams.sourceImage': 'https://www.googleapis.com/compute/v1/projects/click-to-deploy-images/global/images/tf-2-0-cu100-experimental-20190821'. The referenced image resource cannot be found.","reason":"invalid"}],"message":"Invalid value for field 'resource.disks[0].initializeParams.sourceImage': 'https://www.googleapis.com/compute/v1/projects/click-to-deploy-images/global/images/tf-2-0-cu100-experimental-20190821'. The referenced image resource cannot be found.","statusMessage":"Bad Request","requestPath":"https://compute.googleapis.com/compute/v1/projects/jupyterlab-instance/zones/europe-west4-c/instances","httpMethod":"POST"}}

关键是无法在该URL上找到图像资源:

https://www.googleapis.com/compute/v1/projects/click-to-deploy-images/global/images/tf-2-0-cu100-experimental-20190821

我在云外壳上搜索了可用的图像:

@cloudshell:~ (jupyterlab-instance)$ gcloud compute images list --project click-to-deploy-images --no-standard-images --uri | grep tf-2-0-cu100
https://www.googleapis.com/compute/v1/projects/click-to-deploy-images/global/images/tf-2-0-cu100--experimental-20190821

注意,URL不同,与部署脚本尝试获取的图像相比,映像名称中有一个额外的“-”:

tf-2-0-cu100-experimental-20190821
tf-2-0-cu100--experimental-20190821

这看起来像是无意的错字。

我的问题是,如何才能部署此VM?有什么方法可以修改UI在部署之前生成的部署脚本,还是需要通过CLI进行整个部署以添加额外的“-”?

有没有一种方法可以使我解决打字错误?我认为这将阻止任何人尝试使用深度学习VM通过UI工具部署TensorFlow 2 GPU实例。

感谢您的帮助。

2 个答案:

答案 0 :(得分:1)

我遇到了同样的问题。该VM不会使用TF 2.0版本进行部署,因为启动映像URL看起来很混乱。它与区域无关(我曾尝试在没有GPU的情况下进行部署,并且在不同的区域中将无法工作)

一种解决方案是直接使用实例部署映像(请参见文档1

gcloud compute instances create $INSTANCE_NAME \
  --zone=$ZONE \
  --image-family=tf2-latest-gpu \(I used cpu the one but this one seems to fit)
  --image-project=deeplearning-platform-release \
  --accelerator=count=1,type=nvidia-tesla-k80

添加所需的任何选项(GPU等)。

您可以通过

获得有关该命令的帮助。
gcloud compute instances create --help

要列出所有可用图像,请使用

gcloud compute images list --project deeplearning-platform-release --no-standard-images

答案 1 :(得分:0)

我有一个非常相似的问题,结果是我试图在不支持GPU的区域中部署GPU模型。看一下here,以查看“ europe-west4-c”是否支持您使用的GPU类型。例如,如果您使用的是K80,则该区域不提供K80(请参见下面的屏幕截图)。

k80 supported regions