移动Google云端虚拟机实例会显示错误代码“ 6562453592928582321”,实例消失了

时间:2019-03-26 21:12:15

标签: google-cloud-platform

执行后

gcloud compute instances move instance-ba --zone us-east1-b --destination-zone us-east1-c

等待大约5分钟,抛出以下错误

Moving gce instance instance-ba...failed.
ERROR: (cloud.compute.instances.move) Code: '6562453592928582321'

,实例从Web界面以及us-east1-b和us-east1-c区域消失

我尝试使用

启动实例
cloud compute instances start instance-ba --zone us-east1-b

cloud compute instances start instance-ba --zone us-east1-c

但没有一个工作。

在此先感谢您的帮助。 我不得不说这个实例非常重要,感谢您为解决此问题所付出的一切。

修改

在Stackdriver Logging中,我看到以下命令交替执行:

  • Compute Engine setDiskAutoDelete us-east1-b:instance-ba
  • compute.instances.setDiskAutoDelete

似乎该实例已从us-east1-b中删除,但尚未转移到us-east1-c。

我完全看不到任何错误。所有日志的严重性为“ INFO”或更低。

编辑2

我回想起之前发生移动错误的步骤

  • 我尝试在实例中添加第二个Tesla P100,这在启动时出现错误,提示资源不足以满足请求
  • 我尝试移动出现“ TERMINATED”错误的实例,所以我
  • 试图使用提供了“实例未就绪”错误的重置命令来重置计算机
  • 我卸下了第二台Tesla P100,以便可以启动机器
  • 我反复执行重新启动命令,直到它起作用并且机器能够启动
  • 因为我需要第二个GPU,所以我尝试将该实例(不带第二个GPU)从us-east1-b移到us-east1-c,但最终无法正常工作并给出了错误消息

编辑3

经过一番研究,我发现该过程实际上是从我的实例中创建了一个快照,并且数据没有丢失。

但是,我将不断更新有关该错误以及Google对此错误的响应的问题。

1 个答案:

答案 0 :(得分:0)

根据documentation,您对何时使用手动或自动移动有一个简短的说明。如步骤所述,在以下情况下使用手动移动:

“您的虚拟机未在运行。”

“您正在将VM移到其他区域,并且您的VM属于子网。”

“您的实例已连接GPU或本地SSD。”

在您的情况下,您的实例上连接了一个GPU。因此,正确的移动方式如下:

  1. 停止实例
  2. 编辑实例,在“计算机类型”上单击自定义,然后选择“无”个GPU。更多详细信息here
  3. 启动实例
  4. 使用gcloud命令进行move the instance between zones
  

$ gcloud计算实例移动example-instance --zone us-central1-a --destination-zone us-central1-f

  1. 实例迁移后,再次停止它。
  2. 添加GPU并启动实例。

请记住,每个区域都有不同的GPUs available,新项目有limits for GPUs

“为了保护Compute Engine系统和用户,新项目具有全局GPU配额,该配额限制了您可以在任何受支持区域中创建的GPU总数。当您请求GPU配额时,必须为GPU申请配额您要在每个区域中创建的模型,以及针对所有区域中所有类型的GPU总数的额外全局配额。”