警报管理器警报规则无法正常运行

时间:2018-02-02 03:16:04

标签: devops prometheus

我有一个关于警报管理器警报规则的快速问题,我有500台IoT设备连接到服务器,并且正在使用prometheus进行监控,我配置了警报规则,以便在设备运行时获取警报离线。到目前为止,每件事都很好,但是当多个设备在不同时间离线时,警报管理器会发送当前处于离线状态的所有玩家的警报,而不是在特定时间显示特定玩家的警报。

ALERT IoT_online
  IF IoT_online == 0
  LABELS {severity="critical"}
  ANNOTATIONS {description="This device is offline  {{ $value }}.", summary="Instance {{ $labels.instance }} IoT device is offline"}

我希望以这样一种方式配置警报:警报管理器应该只在特定时间发送特定设备警报的警报,而不是在设备脱机时每次都发送所有脱机设备的警报。任何人都可以帮助我吗?

提前致谢

1 个答案:

答案 0 :(得分:0)

这更像是一个警报管理员的问题。

当警报组发送通知时,它将包括当前处于活动状态的每个警报,包括已经触发一段时间的警报。

您可以通过向group_by添加标签将警报组拆分为更小的组,但这会增加您收到的通知量,并且可能会自行发送垃圾邮件。

您还可以使用group_interval来限制因组更改而发送警报的频率。