Prometheus正在触发警报,但是即使警报仍在触发,警报也会在10m后自动解析。有什么想法能使警报在应继续触发时得到解决? resolve_timeout如何与group_interval一起使用?
AlertManager定义了以下间隔:
group_wait: 30s
group_interval: 10m
repeat_interval: 1h
普罗米修斯的规则是:
- alert: PodsDown
expr: sum(kube_pod_container_status_running{pod=~"sql.*"}) < 2
for: 5m
labels:
severity: Sev1
annotations:
description: SQL is down