帮助!救命!救命啊!
真的很烦人,我几乎忍不住了!我正在使用谷歌云计算引擎实例,但他们经常意外地重新启动而没有提前通知。实例的重启似乎是随机发生的,我不知道那里出了什么问题!当重启发生时,我很确定实例已被占用(CPU使用率> 50%且所有GPU都在使用中)。谁能告诉我如何解决这个问题?提前谢谢!
答案 0 :(得分:6)
问题就在这里:
正在使用所有GPU
如果您查看官方documentation about GPU:
GPU实例必须针对主机维护事件终止,但可以自动重启。这些维护事件通常每周发生一次,但必要时可以更频繁地发生。您必须配置工作负载以干净地处理这些维护事件。具体而言,长时间运行的工作负载(如机器学习和高性能计算(HPC))必须处理主机维护事件的中断。 Learn how to handle host maintenance events on instances with GPUs
这是因为连接GPU的实例无法迁移到其他主机进行维护,因为其他虚拟机会发生这种情况。为了获得连接到实例的物理GPU和裸机性能,您正在使用GPU直通,这很遗憾地意味着如果主机必须进行维护,则VM会随之崩溃。
答案 1 :(得分:1)
这听起来像Preemptible VM instance。
可抢占实例的功能与普通实例相似,但具有以下限制:
要使用gcloud cli检查您的实例是否可以抢占,请运行
gcloud compute instances describe instance-name --format="(scheduling.preemptible)"
结果
scheduling:
preemptible: false
将“instance-name”更改为真实姓名。
要检查在您的实例上执行的系统操作,可以使用以下命令查看它:
gcloud compute operations list