我有一个关于警报管理器警报规则的快速问题,我有500台IoT设备连接到服务器,并且正在使用prometheus进行监控,我配置了警报规则,以便在设备运行时获取警报离线。到目前为止,每件事都很好,但是当多个设备在不同时间离线时,警报管理器会发送当前处于离线状态的所有玩家的警报,而不是在特定时间显示特定玩家的警报。
ALERT IoT_online
IF IoT_online == 0
LABELS {severity="critical"}
ANNOTATIONS {description="This device is offline {{ $value }}.", summary="Instance {{ $labels.instance }} IoT device is offline"}
我希望以这样一种方式配置警报:警报管理器应该只在特定时间发送特定设备警报的警报,而不是在设备脱机时每次都发送所有脱机设备的警报。任何人都可以帮助我吗?
提前致谢
答案 0 :(得分:0)
这更像是一个警报管理员的问题。
当警报组发送通知时,它将包括当前处于活动状态的每个警报,包括已经触发一段时间的警报。
您可以通过向group_by
添加标签将警报组拆分为更小的组,但这会增加您收到的通知量,并且可能会自行发送垃圾邮件。
您还可以使用group_interval
来限制因组更改而发送警报的频率。