应用错误收集

好的，所以在我开始之前，完全披露：我对Nagios很新（仅使用它3周），所以请原谅我这个解释不够简洁。

在我继承的环境中，我有两个冗余的Nagios实例在运行（主要和次要）。在主服务器上，我添加了一个活动检查，以查看Apache是否在一组选定的远程主机上运行（修改commands.cfg和services.cfg）。不幸的是，它并没有顺利，所以我不得不将更改恢复到之前的配置。

我的问题出在这里：恢复更改后（删除添加的行，启动Nagios备份），Nagios的主要实例＆＃39; web UI显示特定服务在持续时间变化的情况下间歇性地发生关键，例如，当服务显示为OK时，它将是4小时，但是当它是关键时，它会是显示为10天（有关示例主机，请参阅here;屏幕截图不到一分钟）。只有当我刷新任何“当前状态”页面或访问单个主机以查看受监视的服务并在其中刷新时，才会发生这种情况。另外，需要注意的是，这是对服务进行被动检查并启用了检查新鲜度。

我已经通过CLI从主Nagios服务器进行了手动检查，状态每次都恢复正常。我认为在retention.dat，status.dat，objects.cache或objects.precache中有某个陈旧状态，但即使在停止Nagios，删除所述文件，然后重新启动它，并重新启动NSCA之后，也会出现相同的行为仍然存在。辅助Nagios服务器没有显示此行为，并且显示所有主机和服务的正确状态，也没有对其进行任何修改。

任何帮助都将非常感谢，并提前，谢谢！我已经在Nagios支持论坛上发布了，但无济于事。

Nagios上的服务持续时间警报不断变化

1 个答案: