应用错误收集

Prometheus发送已解决的警报警报通知？

时间：2018-10-18 06:06:44

标签： prometheus prometheus-alertmanager

Prometheus正在触发警报，但是即使警报仍在触发，警报也会在10m后自动解析。有什么想法能使警报在应继续触发时得到解决？ resolve_timeout如何与group_interval一起使用？

AlertManager定义了以下间隔：

  group_wait: 30s
  group_interval: 10m
  repeat_interval: 1h

普罗米修斯的规则是：

  - alert: PodsDown
    expr: sum(kube_pod_container_status_running{pod=~"sql.*"}) < 2
    for: 5m
    labels:
      severity: Sev1
    annotations:
      description: SQL is down

0 个答案:

没有答案