处理监控警报过载和脱敏的最佳方法是什么?

时间:2011-02-18 17:23:33

标签: monitoring alerts uptime email-notifications

我们正在向我们网络上的各种服务器和进程添加监控,目前,如果出现问题,各种监控人员都会通过电子邮件发送给我的开发小组 - 在X分钟内网站上没有客户付款,网络服务是支持进程没有响应,每天自动FTP到供应商失败,等等。虽然其中一些是信息性的,需要尽快解决(例如明天或周一很好),有些是关键的,是实际客户中断的结果,所以他们需要尽快恢复。

问题在于,有太多的电子邮件让人们对他们脱敏,甚至开始忽视关键的电子邮件。尽管我们每个星期都有一个有意识的人,但我仍然发现,有时几个小时,关键警报会一直存在,无人认领且没有响应。

为了更好地解决这些类型的监控和警报情况,还有其他人在做什么?我应该有一个仪表板或摘要电子邮件,提供从一天开始的所有内容吗?然后关键的事情是什么 - 群组电子邮件仍然是最好的方式吗?我很想知道其他人正在做些什么才能看到事情得到快速解决,但要确保开发人员不会不知所措。

1 个答案:

答案 0 :(得分:0)

在RHQ(http://rhq-project.org/)中,我们有抑制事件 - 意味着例如每5个警报等发送一封电子邮件。

此外,可以让警报禁用发送,然后发出第二个所谓的恢复警报,如果出现错误情况(如果错误情况消失),则在下一个错误情况出现时重新启用发送。

有关详细信息,请参阅http://www.rhq-project.org/display/JOPR2/Alerts