我构建了一个Nagios远程主机监控设置(非NRPE),除了以下功能之外它功能强大且有用:
不知何故,我发现Nagios主机登录到各种远程主机,仅在一秒钟之后(如果不是在同一秒内)注销,每3分钟左右;这样做的频率似乎并不确定。这些登录与我定义的任何检查周期不一致。
来自我的远程主机阵列的auth.log的任意成员:
Feb 25 10:51:11 MACHINE sshd[3590]: Accepted publickey for nagios from 10.1.2.110 port 54069 ssh2
Feb 25 10:51:11 MACHINE sshd[3590]: pam_unix(sshd:session): session opened for user nagios by (uid=0)
Feb 25 10:51:11 MACHINE sshd[3599]: Received disconnect from 10.1.2.110: 11: disconnected by user
Feb 25 10:51:11 MACHINE sshd[3590]: pam_unix(sshd:session): session closed for user nagios
然后,三分钟后:
Feb 25 10:54:10 MACHINE sshd[3632]: Accepted publickey for nagios from 10.1.2.110 port 54176 ssh2
Feb 25 10:54:10 MACHINE sshd[3632]: pam_unix(sshd:session): session opened for user nagios by (uid=0)
Feb 25 10:54:10 MACHINE sshd[3642]: Received disconnect from 10.1.2.110: 11: disconnected by user
Feb 25 10:54:10 MACHINE sshd[3632]: pam_unix(sshd:session): session closed for user nagios
我无法理解。我的服务遵循通用服务模板,我已经修改了稍长的检查间隔和最大检查尝试。为什么Nagios会在这个串口登录狂欢?
答案 0 :(得分:0)
您检查了主机定义吗?你用什么'check-host'?如果它通过NRPE检查执行检查(而不是像'本地'检查ping那样),那么它也可以登录。
您还可以检查Nagios日志文件以查看实际执行的检查。我经常执行'tail -f nagios.log | grep [IP_ADDRESS_of_target_host]'将结果缩小到特定的机器。
如果没有任何显示,那么在最后的努力中你可以启用调试并检查Nagios调试文件 - 所有Nagios都会进入这个文件。由于调试文件往往非常快速地滚动(至少在我们的安装中 - > 6.8K检查),您可能必须通过'grep'获得创意才能找到您要查找的内容。
答案 1 :(得分:0)
如果检查返回CRITICAL / WARNING状态,则可能是您的retry_interval
设置为3分钟,我相信这是默认值。在nagios/etc/objects/templates