Question

我遇到一个运行Apache和3个python脚本的自定义（1个vCPU，2 GB内存）计算实例的问题，该脚本实际上等待消息并运行一些SQL查询并创建报告。有时，整个实例对Apache，SSH甚至对串行控制台的访问均无响应。看起来整个实例已冻结。唯一的解决方案是主动登录到我的Google Cloud帐户并重新启动实例。

我检查了磁盘空间，因为Google在其页面之一中建议可能导致实例冻结，但是我仍然有6GB的可用磁盘空间，因此这不成问题。

我从“串行端口1（控制台）”添加了日志，以防可能有助于诊断问题。

有人可以协助我找出原因吗？预先谢谢你。

串行控制台日志输出：

https://pastebin.com/raw/Z9gADmCn

Nov 18 19:14:24 web-server systemd[1]: Stopping System Logging Service...

Nov 18 19:14:24 web-server systemd[1]: Stopped System Logging Service.

Nov 18 19:14:24 web-server systemd[1]: Starting System Logging Service...

Nov 18 19:14:24 web-server systemd[1]: Started System Logging Service.

Nov 18 19:14:25 web-server dhclient[558]: bound to 10.166.0.10 -- renewal in 1434 seconds.

Nov 18 19:14:25 web-server ifup[516]: bound to 10.166.0.10 -- renewal in 1434 seconds.

Answer 1

最好在Serverfault上问这个问题，以引起Sysadmins而不是Devs的注意。

在您使用上述Kolban评论中的建议之前，我建议您检查一些简单的事情。

1-检查实例是否正在维护中（在实例详细信息页面中，您可以找到维护窗口）

2-同样在“实例详细信息”页面下，您应该能够检查CPU和内存利用率，并查看冻结时是否出现峰值。那应该给您正确的方向。

3-检查系统/应用程序日志：我建议检查/ var / log / syslog，如果适用，例如，检查/var/log/nginx/error.log。

Answer 2

在我的一个Google计算引擎实例中，我遇到了同样的问题，该实例在启动一段时间后就变得死机了。当我重置实例时，它又开始正常工作。所以我发现的问题是实例上的CPU / RAM较少，并且该实例上的进程需要更多的CPU / RAM。因此，当将CPU / RAM从1CPU / 3.75 GB RAM更改为4 CPU / 16 GB RAM时，它开始工作永久罚款。

此问题的核心是，计算机是从磁盘快照创建的，其中为高CPU /内存等配置了不同的应用程序（例如tomcat，postgres）。因此，当计算机完全运行时，面临的内存更少导致实例变慢和冻结的必需过程。

Google Cloud计算引擎随机无法访问

2 个答案: