Nagios条件检查

时间:2013-11-26 15:06:43

标签: nagios

目前我正在监控我的目标Windows主机以获取一堆服务(CPU,内存,磁盘,ssl证书,http等)。我正在使用nsclient作为nagios服务器将与之通信的客户端。

我的问题是我每24小时向这些主机部署三次。部署过程需要主机重新启动。每当我的主机重新启动时,我都会收到每个服务的nagios警报。这意味着大量警报,这使得难以识别真正的问题。

理想情况下我想这样:

  • 如果主机已关闭,请不要发送任何其他服务的警报
  • 如果主机正在重新启动,则表示无法访问nsclient。我想只接收一个警报(例如CPU无法访问)并将其他所有内容静音几分钟,因此主机可以完成启动并且nsclient可用。

实现这一点会让我为每个部署获得每个主机一封电子邮件。这比所有变成红色的东西要好得多,而且我会被不值得检查的警报所淹没(因为他们只是因为nagios客户端-nsclient-在重启期间不可用而被发送)。

喜欢使用Windows堆栈......

2 个答案:

答案 0 :(得分:3)

有几种方法可以解决这个问题。

如果您的部署每天都在同一时间发生:
1.您可以修改您的活动时间段以排除那些时间(或)
2.通过Nagios GUI安排主机停机时间

如果你的部署发生在不同的/随机的时间,事情会变得有点困难:
1.当无法访问nrpe或nsclient时,Nagios通常会为检查发出“未知”警报。如果您删除以下条目的“u”选项:

host_notification_options   [d,u,r,f,s,n]
service_notification_options    [w,u,c,r,f,s,n]

这会阻止'UNKNOWN'发送通知。 (或)
2.动态修改受影响检查的主动检查,在开始部署之前“关闭”,然后在部署后“打开它们”。这可以使用Nagios的外部命令文件'。

自动完成

答案 1 :(得分:1)

Jim Black的答案可行,或者如果您想深入了解,可以使用服务通知升级来定义依赖关系,如下面的文档中所述。

升级警报意味着您可以定义:CPU / ssl等检查失败 - >检查主机 - > Notifiy /不通知。

Nagios Service Escalation (3.0)