我上周刚刚使用CloudWatch实现了一些警报,我注意到在6h30到6h45(UTC时间)之间每天都有一个EC2小实例的奇怪行为。
当一个AutoScallingGroup的CPU在3分钟内(平均样本)超过50%并且当另一个AutoScallingGroup恢复正常时警告我时,我实施了一个警报警告我,我认为CPU低于30%在3分钟内(也是平均样本)。这样做了2次:一次是A区,另一次是B区。
看起来不错,但是在6h30到6h45期间发生了一些需要2到5分钟处理一定量的处理。 CPU上升,有时触发"高使用警报",但总是触发"恢复正常警报"。我们的系统目前处于开发的早期阶段,因此没有用户可以访问它,我们也没有安排任何进程/备份/等。我们几乎没有安装和配置Apache + PHP,因此它只能与我猜的主机相关。
任何人都可以解释发生了什么以及如何解决这个问题,除了增加采样时间或%"恢复正常"报警?亚马逊论坛上的人们表示,服务团队一旦有机会就会看看,但已经差不多一周没有回头了。