Google Compute Engine VM不断崩溃

时间:2017-06-11 07:49:27

标签: crash google-cloud-platform google-cloud-endpoints

在us-west-1b中的计算引擎VM上,我运行了16个vCPU,接近99%的使用率。几个小时后,VM会自动崩溃。这不是一次性事件,我必须手动重启VM。

有一些CPU使用率突然下降到30%左右,然后反弹回99%。

崩溃时没有VM的日志。有没有其他方法来获取错误日志?

如何防止虚拟机崩溃?

CPU usage graph

1 个答案:

答案 0 :(得分:1)

这可能是您的流程经理说您的流程资源不足。您可能希望查看内核调优,您可以在其中增加对VM / OS上的活动进程数量及其资源的限制。或者您可以尝试使用具有更多物理资源的更大机器。简而言之,您的机器资源不足,因此为了保持操作系统的正常运行,流程管理器会关闭流程。 SSH是这些过程之一。重置机器后,一切恢复正常。

流程管理器/内核决定退出流程的方式有很多种。可能只是一个过程长时间不停地消耗太多资源。此外,需要注意的一点是,用于在GCP上创建VM的操作系统映像由Google自定义加强,以确保它们可以限制在此类计算机上运行的进程的恶意功能。

解决这个问题的最佳方法之一是:

  • 增加VM的资源
  • 然后返回代码,找出是否有过程或内存泄漏的内容
  • 如果全部失败,那么您可能想要进行一些内核调整以确保您的进程具有比其他系统进程更高的优先级。虽然这是一个坏主意,因为你最终可能会创建一个僵尸虚拟机。