所以我有持续的事件指标。它们被标记为成功或失败。所以我有3个数字;失败,完成,总计。使用像这样的堆积条形图很容易说明(在Datadog中):
所以黑暗部分是失败。通过查看比例尺的y比例和红色虚线,这很容易告诉人类速率是一个问题还是重要的。这意味着我的失败率超过60%,至少在一段时间内(10分钟?),并且在此期间有足够的事件来考虑特殊情况。
所以我正在寻找某种开头的公式:失败除以总数(给我一个0到1之间的分数),然后再以某种方式将其与总数相加,我决定的一些阈值意味着总数是足以让我获得自动警报。
对于额外的功劳,以下是我尝试使用的实际Datadog指标:
(sum:event {status:fail} .rollup(sum,300)/ sum:event {}。rollup(sum, 300))
我正在观看15分钟并且警告得分高于0.75。但我不确定总和,计数,平均,汇总或计数。并且这个警报将在夜间发送邮件,当总事件变得足够低时,高故障率不能证明任何问题。