如何以 10 分钟的警报间隔提醒“计数器”值增加

时间:2021-04-09 15:24:11

标签: prometheus-alertmanager

所以,我对错误日志文件(mtail)进行了监控。这只是计算错误行的数量。并且 mtail 对文件中的新行数求和。 我只想在每 10 分钟发生一次新错误时发送警报。不是针对每一个错误。 请您提供这些行的确切值:

    expr: increase(php_fpm_errors_total[10m]) > 0
    for: 10m

如果您提供一些文档链接或解释,我将不胜感激。

1 个答案:

答案 0 :(得分:0)

按照您的方式,它会在每次评估(默认值 = 1m)10 分钟时提醒您是否有新错误,然后触发警报。警报管理器中还有一个名为 group_wait(默认值 = 30s)的属性,它在第一个触发警报之后等待并将过去时间中所有触发的警报分组为 1 个通知。如果您想发送通知,即使您有 1 个错误,但不想为每个错误发送 1000 个通知,您可以删除 for: 10m 并设置 group_wait=10m