如何停止AWS CloudWatch UnHealthHostCount错误警报?

时间:2016-01-21 17:55:21

标签: amazon-web-services amazon-ec2 alarm amazon-elb amazon-cloudwatch

我们每天多次收到此消息(通过电子邮件发送):

  

ALARM:" elb-production-UnHealthHostCount"在美国 - 弗吉尼亚州。

     

您收到此电子邮件是因为您的Amazon CloudWatch警报   " ELB-生产UnHealthHostCount"在美国 - 弗吉尼亚州的N.   进入ALARM状态,因为" Threshold Crossed:1 datapoint(0.2)   大于阈值(0.0)。"在" 2016年1月21日星期四   17:39:39 UTC"。

     

在AWS管理控制台中查看此警报:   https://console.aws.amazon.com/cloudwatch/home?region=us-east-1#s=Alarms&alarm=elb-production-UnHealthHostCount

     

警报详情:    - 姓名:elb-production-UnHealthHostCount    - 说明:    - 州改变:好的 - >报警    - 状态变化的原因:阈值交叉:1个数据点(0.2)大于阈值(0.0)。    - 时间戳:2016年1月21日星期四17:39:39 UTC    - AWS账户:1234567890

     

阈值:    - 当度量标准为GreaterThanThreshold 0.0持续60秒时,警报处于ALARM状态。

     

受监控的指标:    - MetricNamespace:AWS / ELB    - MetricName:UnHealthyHostCount    - 尺寸:[LoadBalancerName = production]    - 时间:60秒    - 统计:平均值    - 单位:未指定

     

州改变行动:   - 好:    - 报警:[arn:aws:sns:us-east-1:1234567890:DevOps]    - INSUFFICIENT_DATA:

但是,在查看我们的nginx日志文件后,似乎AWS能够在警报出现的时候与我们的每台服务器联系并启动#34;。换句话说,我们的ec2实例在2016年1月21日星期四17:39:39 UTC的每个请求中返回200 /healthcheck

AWS似乎每30秒左右检查一次我们的实例。

有没有人遇到过这个问题?如果是这样,你对此做了什么?

1 个答案:

答案 0 :(得分:0)

我已经更新了一些设置......

  • 每当:UnHealthyHostCount> 0
  • 统计数据:平均值

...到......

  • 每当:UnHealthyHostCount> = 1
  • 统计:最高

如果我的问题继续发生,我会更新这个答案。

更新:

问题继续发生:/

我已经更新了当前UnHealthyHostCount警报的另一个设置...

连续1个周期

...到......

连续2个周期

...我已经创建了一个新警报来跟踪多个服务器是否在一段时间内关闭......

enter image description here

如果我的问题继续发生,我会更新这个答案。