目前我正在监控我的目标Windows主机以获取一堆服务(CPU,内存,磁盘,ssl证书,http等)。我正在使用nsclient作为nagios服务器将与之通信的客户端。
我的问题是我每24小时向这些主机部署三次。部署过程需要主机重新启动。每当我的主机重新启动时,我都会收到每个服务的nagios警报。这意味着大量警报,这使得难以识别真正的问题。
理想情况下我想这样:
实现这一点会让我为每个部署获得每个主机一封电子邮件。这比所有变成红色的东西要好得多,而且我会被不值得检查的警报所淹没(因为他们只是因为nagios客户端-nsclient-在重启期间不可用而被发送)。
喜欢使用Windows堆栈......
答案 0 :(得分:3)
有几种方法可以解决这个问题。
如果您的部署每天都在同一时间发生:
1.您可以修改您的活动时间段以排除那些时间(或)
2.通过Nagios GUI安排主机停机时间
如果你的部署发生在不同的/随机的时间,事情会变得有点困难:
1.当无法访问nrpe或nsclient时,Nagios通常会为检查发出“未知”警报。如果您删除以下条目的“u”选项:
host_notification_options [d,u,r,f,s,n]
service_notification_options [w,u,c,r,f,s,n]
这会阻止'UNKNOWN'发送通知。 (或)
2.动态修改受影响检查的主动检查,在开始部署之前“关闭”,然后在部署后“打开它们”。这可以使用Nagios的外部命令文件'。
答案 1 :(得分:1)
Jim Black的答案可行,或者如果您想深入了解,可以使用服务通知升级来定义依赖关系,如下面的文档中所述。
升级警报意味着您可以定义:CPU / ssl等检查失败 - >检查主机 - > Notifiy /不通知。