时间序列中的差距使警报无法使用

时间:2018-05-07 11:13:12

标签: prometheus prometheus-alertmanager

我正试图通过以下警告对停止的容器进行通知:

alert: artifactory_down
expr: absent(container_memory_usage_bytes{name="artifactory"})
for: 1m
labels:
  severity: critical
annotations:
  description: Artifactory container is down for more than 60 seconds.
  summary: Artifactory down

不幸的是,时间序列中存在间隙,导致错误警报。容器仍在运行。差距在1到5分钟之间。

enter image description here

知道可能导致此问题的原因或如何进一步分析这个问题吗?

1 个答案:

答案 0 :(得分:0)

我猜你正在使用旧版本的cAdvisor,请确保你为标签的一致性做了至少0.27.4的修复。同时通过up指标为1来检查cAdvisor的擦除是否超过。