标签随时间丢失时发出警报的指标

时间:2021-02-26 16:00:29

标签: prometheus prometheus-alertmanager

我想为 prometheus 警报创建一个表达式,当我的指标没有所有可能的标签变体出现超过 1 小时的增量时,它会通知我。以下是我的指标的示例:

{"metric":"job_completion_time","value":1613700596,"labels":{"location":"x","slice":"control","job":"JobName","type":"a"}}

{"metric":"job_completion_time","value":1613700596,"labels":{"location":"y","slice":"control","job":"JobName","type":"a"}}

这项工作涉及 a/b 测试,所以我不会知道将通过的所有可能的标签,并且值是 unix 时间。在这一点上,我只有两种类型,因为位置不同,而且我们没有运行任何 a/b 测试。我宁愿不对任何值进行硬编码,因为我不知道测试切片的确切名称。

我想我可以使用这个 minute(time() - sum by (location, slice, type) (job_completion_time)) > 60,以便获得所有可能的变化并在没有变化时触发,但它不起作用,因为位置 x 在一小时内出现,即​​使位置 y 没有't,这阻止了警报触发。我不能使用 absent_over_time(job_completion_time{location="x"}[1h]) 之类的东西,因为我必须对位置进行硬编码,可能还有其他标签。有没有人做过类似的指标?

0 个答案:

没有答案
相关问题