Question

我正在使用alertmanager在闲置时发布警报。这是我的警报的配置：

expr: <a query that takes 5 seconds>
for: 60m

这是我的警报管理器上的设置：

global:
  resolve_timeout: 5m
route:
  group_by: ['alertname', 'cluster']
  group_interval: 5m
  group_wait: 30s
  receiver: "slack"
  repeat_interval: 12h

为了提高性能，我创建了一条记录规则，以使5秒查询花费100毫秒。

我有两个问题：

1）我遇到了一个问题，即我在空闲通道上“切换”，这意味着警报将处于未解决状态，很快就会被解决，然后又回到未解决状态。在这种情况下，警报实际上并未得到解决。在查看普罗米修斯时，警报会显示出来，但是在查看警报管理器时，警报会定期消失而不是重新出现。为什么警报管理器会丢失警报，而仅在几秒钟后重新出现？ 2）松弛发送消息的行为是什么？我假设它将在以下情况下发送消息： 1）警报进入警报

2）警报不再可用

3）警报中的num_firing增大或减小

当我查看闲置频道时，尽管设置了上面的alertmanager，但仍会在以下时间看到发布的消息：

12:02AM
12:08AM
1:02AM
1:08AM
1:52AM
2:53AM
2:58AM
3:18AM
3:38AM
4:23AM
6:23AM
6:43AM
6:48AM
6:53AM
6:59AM
8:39AM
8:54AM
9:04AM
9:19AM

总而言之，我有两个问题：为什么alertmanager会丢弃警报？为什么alertmanager在非确定时间将消息发送到松弛状态？

通过JSON输入查询Prometheus警报管理器上的活动警报

0 个答案: