普罗米修斯区分警报

时间:2021-07-24 10:29:08

标签: prometheus prometheus-alertmanager

请告知如何在模板化或警报规则中说明 Prometheus 的点头或服务。我没有在文档中找到有关变量的信息。例如,我有后端、MongoDB、硬件、容器 (Docker) 的警报规则,Prometheus 如何区分这些警报规则的应用位置和方式?

1 个答案:

答案 0 :(得分:0)

我想这只是您如何配置规则和标签 (prometheus_rules.yml) 的问题。观察指标中包含哪些信息,并使用标签获取其他信息或过滤。考虑流行的指标 up。以下是创建考虑某些标签的规则的方法。您可以使用来自特定出口商的预定义标签,例如up{job="node"} 或分配新的,如下例所示 (service, severity)。

  - alert: InstanceDown
    expr: up{job="node"} == 0
    for: 5m
    labels:
      severity: error
      service: cluster
    annotations:
      summary: "Instance {{ $labels.instance }} down"
      description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 5 minutes."