超时错误指标

Question

我正在寻找一种指标来跟踪微服务中某些错误的严重性。

例如针对外部服务读取超时。在x轴上，我可能会有timeintervalls，例如每10分钟一次。在y轴上，指标的值。

起初，我认为该值将是超时请求的数量。但这还没有结束，因为需要将超时数量与请求总数相关联。

第二秒，我想到了超时请求的百分比。但这也不完美，因为如果在此时间间隔内请求总数为1，则达到100％的超时并不是至关重要的。

我确定这是日志记录和性能指标可视化中的常见情况。

Answer 1

据我了解，您的微服务错误可以计算如下：

超时错误计数[TOEC]

这只是您有多少次超时错误的原始计数。

这将有一定的时间间隔，例如每10分钟一次。

TOEC = count of time-out requests in interval

这是您遇到的超时请求错误的一部分。

每隔10分钟就会出现一次赏金。

TOEP = count of time-out requests in interval / count of all requests in interval

这是一种[错误率]（https://en.wikipedit a.org/wiki/Error_rate）

还有其他标准指标，这里Wikipedia: Precision and recall

可能会让您感兴趣

我觉得您的域中可能还有其他类型的错误和成功，如果您查看维基百科的文章，并且没有更多信息，我相信您的time-out errors等同于TN，是True Negative个。

如果您可以定义其他变量（FN，FP，TP），则理论上可以使用维基百科文章上的任何标准度量。这将为您提供有关如何解释微服务正在执行的how well的大量信息。