为什么我的Google云计算实例总是意外重启?

时间:2018-01-27 10:54:58

标签: google-compute-engine

帮助!救命!救命啊!

真的很烦人,我几乎忍不住了!我正在使用谷歌云计算引擎实例,但他们经常意外地重新启动而没有提前通知。实例的重启似乎是随机发生的,我不知道那里出了什么问题!当重启发生时,我很确定实例已被占用(CPU使用率> 50%且所有GPU都在使用中)。谁能告诉我如何解决这个问题?提前谢谢!

2 个答案:

答案 0 :(得分:6)

问题就在这里:

  

正在使用所有GPU

如果您查看官方documentation about GPU

  

GPU实例必须针对主机维护事件终止,但可以自动重启。这些维护事件通常每周发生一次,但必要时可以更频繁地发生。您必须配置工作负载以干净地处理这些维护事件。具体而言,长时间运行的工作负载(如机器学习和高性能计算(HPC))必须处理主机维护事件的中断。 Learn how to handle host maintenance events on instances with GPUs

这是因为连接GPU的实例无法迁移到其他主机进行维护,因为其他虚拟机会发生这种情况。为了获得连接到实例的物理GPU和裸机性能,您正在使用GPU直通,这很遗憾地意味着如果主机必须进行维护,则VM会随之崩溃。

答案 1 :(得分:1)

这听起来像Preemptible VM instance

可抢占实例的功能与普通实例相似,但具有以下限制:

  • Compute Engine可能会因系统事件而随时终止可抢占的实例。计算引擎终止系统事件的可抢占实例的概率通常较低,但可能因日常和区域而异,具体取决于当前条件。
  • 计算引擎在运行24小时后始终会终止可抢占的实例。

要使用gcloud cli检查您的实例是否可以抢占,请运行

gcloud compute instances describe instance-name --format="(scheduling.preemptible)"

结果

scheduling:
  preemptible: false

将“instance-name”更改为真实姓名。

或者只需通过UI,点击计算实例并向下滚动: enter image description here

要检查在您的实例上执行的系统操作,可以使用以下命令查看它:

gcloud compute operations list