postgresql RDS实例上的100%CPU利用率

时间:2018-06-15 09:00:43

标签: postgresql amazon-web-services amazon-rds cpu-usage

几天前,我在postgresql生产RDS实例(m3.medium)上遇到CPU利用率突然增加。我仍在寻找问题的根本原因,因为它严重影响了我们的系统。

以下是执行的一些步骤:

  1. 14:09 CPU利用率仅在1分钟内从18%上升到100%

  2. 14:17新文件和Logentries报告流量增加(这意味着CPU峰值不是由太多请求触发)

  3. 我正在执行RDS重启
  4. 重启后CPU利用率再次增加到100%
  5. 几分钟后,我们停止从一个应用程序加载平衡器流量,然后再次执行RDS重启
  6. 最后一次重启后,CPU再次增加到100%
  7. 我正在将m3.medium实例升级为m4.large
  8. 升级后一切恢复正常
  9. 现在,问题是我没有在整个时间内对数据库执行任何调试(比如选择pg_stat_activity)而且我也没有重新启动故障转移的实例(也许这样我会知道是否存在是一些硬件问题,或者是否仅在该特定实例上执行任何更新。)

    我还下载了我们所拥有的RDS错误日志,并且在我刚发现的时间范围内:

      

    2018-06-07 14:02:37 UTC :: @:[17183]:日志:检查站开始:时间

         

    2018-06-07 14:04:16 UTC :: @:[17183]:日志:检查点完成:写入976个缓冲区(0.9%);添加0个事务日志文件,删除0个,再循环1个; write = 98.710 s,sync = 0.042 s,total = 98.784 s;同步文件= 58,最长= 0.042秒,平均值= 0.000秒

    我没有包含在该时间范围内执行的所有查询的日志,但是Logentries和Newrelic没有显示任何异常。 此外,Free storage spaceWrite IOPSREAD IOPS图表在发生事件之前和之后正常查看。维护窗口未在事件的时间范围内设置,而neihter是备份窗口。

    我不知道接下来应该看什么。 Postgresql不时有什么东西我应该知道吗?或者它可能与RDS有关?

0 个答案:

没有答案