应用错误收集

几天前，我在postgresql生产RDS实例（m3.medium）上遇到CPU利用率突然增加。我仍在寻找问题的根本原因，因为它严重影响了我们的系统。

以下是执行的一些步骤：

14:09 CPU利用率仅在1分钟内从18％上升到100％
14:17新文件和Logentries报告流量增加（这意味着CPU峰值不是由太多请求触发）
我正在执行RDS重启
重启后CPU利用率再次增加到100％
几分钟后，我们停止从一个应用程序加载平衡器流量，然后再次执行RDS重启
最后一次重启后，CPU再次增加到100％
我正在将m3.medium实例升级为m4.large
升级后一切恢复正常

现在，问题是我没有在整个时间内对数据库执行任何调试（比如选择pg_stat_activity）而且我也没有重新启动故障转移的实例（也许这样我会知道是否存在是一些硬件问题，或者是否仅在该特定实例上执行任何更新。）

我还下载了我们所拥有的RDS错误日志，并且在我刚发现的时间范围内：

2018-06-07 14:02:37 UTC :: @：[17183]：日志：检查站开始：时间

2018-06-07 14:04:16 UTC :: @：[17183]：日志：检查点完成：写入976个缓冲区（0.9％）;添加0个事务日志文件，删除0个，再循环1个; write = 98.710 s，sync = 0.042 s，total = 98.784 s;同步文件= 58，最长= 0.042秒，平均值= 0.000秒

我没有包含在该时间范围内执行的所有查询的日志，但是Logentries和Newrelic没有显示任何异常。此外，Free storage space，Write IOPS，READ IOPS图表在发生事件之前和之后正常查看。维护窗口未在事件的时间范围内设置，而neihter是备份窗口。

我不知道接下来应该看什么。 Postgresql不时有什么东西我应该知道吗？或者它可能与RDS有关？

postgresql RDS实例上的100％CPU利用率

0 个答案: