Nagios上的服务持续时间警报不断变化

时间:2015-03-06 18:03:33

标签: refresh state nagios duration

好的,所以在我开始之前,完全披露:我对Nagios很新(仅使用它3周),所以请原谅我这个解释不够简洁。

在我继承的环境中,我有两个冗余的Nagios实例在运行(主要和次要)。在主服务器上,我添加了一个活动检查,以查看Apache是​​否在一组选定的远程主机上运行(修改commands.cfg和services.cfg)。不幸的是,它并没有顺利,所以我不得不将更改恢复到之前的配置。

我的问题出在这里:恢复更改后(删除添加的行,启动Nagios备份),Nagios的主要实例' web UI显示特定服务在持续时间变化的情况下间歇性地发生关键,例如,当服务显示为OK时,它将是4小时,但是当它是关键时,它会是显示为10天(有关示例主机,请参阅here;屏幕截图不到一分钟)。只有当我刷新任何“当前状态”页面或访问单个主机以查看受监视的服务并在其中刷新时,才会发生这种情况。另外,需要注意的是,这是对服务进行被动检查并启用了检查新鲜度。

我已经通过CLI从主Nagios服务器进行了手动检查,状态每次都恢复正常。我认为在retention.dat,status.dat,objects.cache或objects.precache中有某个陈旧状态,但即使在停止Nagios,删除所述文件,然后重新启动它,并重新启动NSCA之后,也会出现相同的行为仍然存在。辅助Nagios服务器没有显示此行为,并且显示所有主机和服务的正确状态,也没有对其进行任何修改。

任何帮助都将非常感谢,并提前,谢谢!我已经在Nagios支持论坛上发布了,但无济于事。

1 个答案:

答案 0 :(得分:0)

编辑:没关系。原来有两个Nagios运行的例子,因此是间歇性的。两人都被杀了,再次开始了Nagios,并且稳定了。