在排除任何异常的同时在Grafana中计算SLA图表?

时间:2019-10-31 19:16:57

标签: grafana dashboard amazon-cloudwatch graphite

所有Grafana /石墨大师的问题。 :-)
我是Grafana / Graphite的新手,可以使用您的帮助为Uptime SLA创建SingleState图,该图还将如下所述统计异常和停机时间。
如果某些人可以使用Grafana和AWS CloudWatch指标在滚动时间窗口内共享石墨设置,那就太好了。
我们的服务状态端点(已安排AWS / CloudWatch事件时间表)每5分钟触发一次,并返回成功:1和错误:0或成功:0和错误1。
因此,我们的指标日志可以如下:

  • 10:00错误:0;成功:1
  • 10:05错误:0;成功:1
  • 10:10错误:1;成功:0
  • 10:15错误:1;成功:0
  • 10:20错误:null;成功:null(AWS事件未触发)
  • 10:25错误:null;成功:null(AWS事件未触发)
  • 10:30错误:0;成功:2(AWS事件延迟交付和常规AWS事件)
  • 10:35错误:0;成功:1
  • 10:40错误:0;成功:1

现在,有时由于AWS事件/ cloudwatch中的某些问题,AWS CloudWatch事件无法完全触发或稍后触发。当ping仍处于活动状态但基础服务正在维护窗口中时,它也无法解决任何计划的停机时间。

目前,我们在数学公式中具有以下公式,并将结果显示为Percent: (SuccessCount /(SuccessCount + FailureCount))* 100

上述方法中的问题似乎并未考虑: a)像我上面提到的任何AWS / Events或AWS / CloudWatch异常。要么 b)任何计划的服务停机时间

想找出解决上述问题的标准做法。 非常感谢。

0 个答案:

没有答案