请告知如何在模板化或警报规则中说明 Prometheus 的点头或服务。我没有在文档中找到有关变量的信息。例如,我有后端、MongoDB、硬件、容器 (Docker) 的警报规则,Prometheus 如何区分这些警报规则的应用位置和方式?
答案 0 :(得分:0)
我想这只是您如何配置规则和标签 (prometheus_rules.yml
) 的问题。观察指标中包含哪些信息,并使用标签获取其他信息或过滤。考虑流行的指标 up
。以下是创建考虑某些标签的规则的方法。您可以使用来自特定出口商的预定义标签,例如up{job="node"}
或分配新的,如下例所示 (service, severity
)。
- alert: InstanceDown
expr: up{job="node"} == 0
for: 5m
labels:
severity: error
service: cluster
annotations:
summary: "Instance {{ $labels.instance }} down"
description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 5 minutes."