Question

我正在尝试使用UP指标来确定服务在一个时间范围（或每小时）内停机不到一分钟（可能是网络打嗝）的次数。我每隔5秒采样一次

我到目前为止得到的最好是= = 0只会在服务停止时给我一系列积分，但我不知道下一步该做什么。

非常感谢有关此类查询的任何帮助

感谢。

Answer 1

您可以尝试以下操作：计算 up 指标的平均值。如果服务中断，平均值（1分钟的滑动窗口）将随着时间的推移而减少。

如果作业再次出现，并且平均值大于0，则服务不会超过一分钟。

以下查询（通过Prometheus Web控制台工作）每次服务启动时都会提供一个数据点，然后停机超过一分钟。

avg_over_time(up{job="jobname"} [1m]) > 0 
AND 
irate(up{job="jobname"} [1m]) > 0