应用错误收集

所以我有持续的事件指标。它们被标记为成功或失败。所以我有3个数字;失败，完成，总计。使用像这样的堆积条形图很容易说明（在Datadog中）：

enter image description here

所以黑暗部分是失败。通过查看比例尺的y比例和红色虚线，这很容易告诉人类速率是一个问题还是重要的。这意味着我的失败率超过60％，至少在一段时间内（10分钟？），并且在此期间有足够的事件来考虑特殊情况。

所以我正在寻找某种开头的公式：失败除以总数（给我一个0到1之间的分数），然后再以某种方式将其与总数相加，我决定的一些阈值意味着总数是足以让我获得自动警报。

对于额外的功劳，以下是我尝试使用的实际Datadog指标：

（sum：event {status：fail} .rollup（sum，300）/ sum：event {}。rollup（sum， 300））

我正在观看15分钟并且警告得分高于0.75。但我不确定总和，计数，平均，汇总或计数。并且这个警报将在夜间发送邮件，当总事件变得足够低时，高故障率不能证明任何问题。