Question

我构建了一个Nagios远程主机监控设置（非NRPE），除了以下功能之外它功能强大且有用：

不知何故，我发现Nagios主机登录到各种远程主机，仅在一秒钟之后（如果不是在同一秒内）注销，每3分钟左右;这样做的频率似乎并不确定。这些登录与我定义的任何检查周期不一致。

来自我的远程主机阵列的auth.log的任意成员：

Feb 25 10:51:11 MACHINE sshd[3590]: Accepted publickey for nagios from 10.1.2.110 port 54069 ssh2
Feb 25 10:51:11 MACHINE sshd[3590]: pam_unix(sshd:session): session opened for user nagios by (uid=0)
Feb 25 10:51:11 MACHINE sshd[3599]: Received disconnect from 10.1.2.110: 11: disconnected by user
Feb 25 10:51:11 MACHINE sshd[3590]: pam_unix(sshd:session): session closed for user nagios

然后，三分钟后：

Feb 25 10:54:10 MACHINE sshd[3632]: Accepted publickey for nagios from 10.1.2.110 port 54176 ssh2
Feb 25 10:54:10 MACHINE sshd[3632]: pam_unix(sshd:session): session opened for user nagios by (uid=0)
Feb 25 10:54:10 MACHINE sshd[3642]: Received disconnect from 10.1.2.110: 11: disconnected by user
Feb 25 10:54:10 MACHINE sshd[3632]: pam_unix(sshd:session): session closed for user nagios

我无法理解。我的服务遵循通用服务模板，我已经修改了稍长的检查间隔和最大检查尝试。为什么Nagios会在这个串口登录狂欢？

Answer 1

您检查了主机定义吗？你用什么'check-host'？如果它通过NRPE检查执行检查（而不是像'本地'检查ping那样），那么它也可以登录。

您还可以检查Nagios日志文件以查看实际执行的检查。我经常执行'tail -f nagios.log | grep [IP_ADDRESS_of_target_host]'将结果缩小到特定的机器。

如果没有任何显示，那么在最后的努力中你可以启用调试并检查Nagios调试文件 - 所有Nagios都会进入这个文件。由于调试文件往往非常快速地滚动（至少在我们的安装中 - > 6.8K检查），您可能必须通过'grep'获得创意才能找到您要查找的内容。

Answer 2

如果检查返回CRITICAL / WARNING状态，则可能是您的retry_interval设置为3分钟，我相信这是默认值。在nagios/etc/objects/templates

中仔细检查您的服务模板

监视远程主机时控制Nagios登录频率

2 个答案: