我正在尝试使用UP指标来确定服务在一个时间范围(或每小时)内停机不到一分钟(可能是网络打嗝)的次数。我每隔5秒采样一次
我到目前为止得到的最好是= = 0只会在服务停止时给我一系列积分,但我不知道下一步该做什么。
非常感谢有关此类查询的任何帮助
感谢。
答案 0 :(得分:0)
您可以尝试以下操作:计算 up 指标的平均值。如果服务中断,平均值(1分钟的滑动窗口)将随着时间的推移而减少。
如果作业再次出现,并且平均值大于0,则服务不会超过一分钟。
以下查询(通过Prometheus Web控制台工作)每次服务启动时都会提供一个数据点,然后停机超过一分钟。
avg_over_time(up{job="jobname"} [1m]) > 0
AND
irate(up{job="jobname"} [1m]) > 0