通过JSON输入查询Prometheus警报管理器上的活动警报

时间:2020-02-14 18:27:02

标签: prometheus prometheus-alertmanager

我正在使用alertmanager在闲置时发布警报。这是我的警报的配置:

expr: <a query that takes 5 seconds>
for: 60m

这是我的警报管理器上的设置:

global:
  resolve_timeout: 5m
route:
  group_by: ['alertname', 'cluster']
  group_interval: 5m
  group_wait: 30s
  receiver: "slack"
  repeat_interval: 12h

为了提高性能,我创建了一条记录规则,以使5秒查询花费100毫秒。

我有两个问题:

1)我遇到了一个问题,即我在空闲通道上“切换”,这意味着警报将处于未解决状态,很快就会被解决,然后又回到未解决状态。在这种情况下,警报实际上并未得到解决。在查看普罗米修斯时,警报会显示出来,但是在查看警报管理器时,警报会定期消失而不是重新出现。为什么警报管理器会丢失警报,而仅在几秒钟后重新出现? 2)松弛发送消息的行为是什么?我假设它将在以下情况下发送消息: 1)警报进入警报

2)警报不再可用

3)警报中的num_firing增大或减小

当我查看闲置频道时,尽管设置了上面的alertmanager,但仍会在以下时间看到发布的消息:

12:02AM
12:08AM
1:02AM
1:08AM
1:52AM
2:53AM
2:58AM
3:18AM
3:38AM
4:23AM
6:23AM
6:43AM
6:48AM
6:53AM
6:59AM
8:39AM
8:54AM
9:04AM
9:19AM

总而言之,我有两个问题: 为什么alertmanager会丢弃警报? 为什么alertmanager在非确定时间将消息发送到松弛状态?

0 个答案:

没有答案