我们已经开始使用Prometheus来监视我们的基础架构。一种服务已配置了以下警报:
这样,如果“ up”为零或无法达到任何指标,我们将收到警报。
现在,我们需要一个显示服务的“正常运行时间”的grafana“单一状态”面板,但“ avg_over_time”不能与“ absent”一起使用,因此我们可以在其中添加“ absent”之类的选项正常运行时间的面板?
答案 0 :(得分:0)
您可以通过以下类似方式对其进行估算:
sum_over_time(up{job="service"}[24h]) / sum_over_time(up{job="prometheus"}[24h])
这会将记录您的服务为“运行中”(过去24小时)的样本数除以记录普罗米修斯为“运行中”的样本数。
否则,您可以使用一条记录规则来记录类似于您的警报条件的内容,如果服务已启动,则该值为1,否则为0。然后您可以在该指标上使用avg_over_time()
。