如何在Prometheus + AlertManager中将警报添加到某些Prometheus作业名称?

时间:2018-10-10 17:45:13

标签: prometheus prometheus-alertmanager

我为几个团队运行一个prometheus实例,我希望能够为各个团队管理的服务器添加警报。

一个示例可能会比我能解释的要好得多:

说团队A要添加一些要由Prometheus监视的服务器。此外,他们希望在某些情况下(内存不足,停机等)关闭警报。

当前,通过我的设置,所有作业名称中的所有服务器都使用相同的规则集进行监视和警告。我想要的是这样的:

Docker服务器在警报组-A上被警报
Nginx服务器在警报组B上被警报

我不确定要在Prometheus.yml和alert.rules.yml文件中执行什么操作。

感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

我最终弄清楚了。

在alertmanager的alert.rules.yml文件中,您可以在“ expr”行中指定一个正则表达式。

例如,如果我想监视服务器“ test1”,“ test2”,“ test3”的停机时间,则可以执行以下操作:

expr: up{job=~"test1|test2|test3"} == 0