几天前,我在postgresql生产RDS实例(m3.medium)上遇到CPU利用率突然增加。我仍在寻找问题的根本原因,因为它严重影响了我们的系统。
以下是执行的一些步骤:
14:09 CPU利用率仅在1分钟内从18%上升到100%
14:17新文件和Logentries报告流量增加(这意味着CPU峰值不是由太多请求触发)
现在,问题是我没有在整个时间内对数据库执行任何调试(比如选择pg_stat_activity)而且我也没有重新启动故障转移的实例(也许这样我会知道是否存在是一些硬件问题,或者是否仅在该特定实例上执行任何更新。)
我还下载了我们所拥有的RDS错误日志,并且在我刚发现的时间范围内:
2018-06-07 14:02:37 UTC :: @:[17183]:日志:检查站开始:时间
2018-06-07 14:04:16 UTC :: @:[17183]:日志:检查点完成:写入976个缓冲区(0.9%);添加0个事务日志文件,删除0个,再循环1个; write = 98.710 s,sync = 0.042 s,total = 98.784 s;同步文件= 58,最长= 0.042秒,平均值= 0.000秒
我没有包含在该时间范围内执行的所有查询的日志,但是Logentries和Newrelic没有显示任何异常。
此外,Free storage space
,Write IOPS
,READ IOPS
图表在发生事件之前和之后正常查看。维护窗口未在事件的时间范围内设置,而neihter是备份窗口。
我不知道接下来应该看什么。 Postgresql不时有什么东西我应该知道吗?或者它可能与RDS有关?