Question

帮助！救命！救命啊！

真的很烦人，我几乎忍不住了！我正在使用谷歌云计算引擎实例，但他们经常意外地重新启动而没有提前通知。实例的重启似乎是随机发生的，我不知道那里出了什么问题！当重启发生时，我很确定实例已被占用（CPU使用率> 50％且所有GPU都在使用中）。谁能告诉我如何解决这个问题？提前谢谢！

Answer 1

问题就在这里：

正在使用所有GPU

如果您查看官方documentation about GPU：

GPU实例必须针对主机维护事件终止，但可以自动重启。这些维护事件通常每周发生一次，但必要时可以更频繁地发生。您必须配置工作负载以干净地处理这些维护事件。具体而言，长时间运行的工作负载（如机器学习和高性能计算（HPC））必须处理主机维护事件的中断。 Learn how to handle host maintenance events on instances with GPUs

这是因为连接GPU的实例无法迁移到其他主机进行维护，因为其他虚拟机会发生这种情况。为了获得连接到实例的物理GPU和裸机性能，您正在使用GPU直通，这很遗憾地意味着如果主机必须进行维护，则VM会随之崩溃。

Answer 2

这听起来像Preemptible VM instance。

可抢占实例的功能与普通实例相似，但具有以下限制：

Compute Engine可能会因系统事件而随时终止可抢占的实例。计算引擎终止系统事件的可抢占实例的概率通常较低，但可能因日常和区域而异，具体取决于当前条件。
计算引擎在运行24小时后始终会终止可抢占的实例。

要使用gcloud cli检查您的实例是否可以抢占，请运行

gcloud compute instances describe instance-name --format="(scheduling.preemptible)"

结果

scheduling:
  preemptible: false

将“instance-name”更改为真实姓名。

或者只需通过UI，点击计算实例并向下滚动：

要检查在您的实例上执行的系统操作，可以使用以下命令查看它：

gcloud compute operations list

为什么我的Google云计算实例总是意外重启？

2 个答案: