Nagios:主机停机 - >之后,所有服务似乎都超时了

时间:2013-07-01 08:03:43

标签: service host nagios

我对Nagios有一个奇怪的问题。重启后一切都运行得很好。 几个小时后,主机会显示下来,一分钟后再显示(请参阅下面的历史记录)。之后,所有服务都会因超时而失败。

同时所有服务器都不会发生这种情况。服务器失败似乎是随机的。

历史记录:

[2013-06-26 19:19:07] SERVICE ALERT: HyperV 1;Check CPU HyperV 1;CRITICAL;SOFT;1;CHECK_NRPE: Socket timeout after 120 seconds.
[2013-06-26 19:17:27] HOST ALERT: HyperV 1;UP;SOFT;2;PING OK - Packet loss = 0%, RTA = 3.01 ms
[2013-06-26 19:16:17] HOST ALERT: HyperV 1;DOWN;SOFT;1;PING CRITICAL - Packet loss = 100%

到目前为止我尝试了什么。

- 增加超时

- 更改主机检查,以便在失败前更频繁地检查(5次而不是1次)

- 从命令行执行脚本 - >也失败了(也许是Ubuntu问题?)

-Checked双方记录错误(找不到任何内容)

重启后一切都很好。

系统信息:

-Nagios正在Ubuntu 13.04上运行

- 有些客户端使用NSClient ++运行不同的Windows

-ESX版本从4.0到5.1

插件:

-check_nrpe

来自Nagios Exchange

-check_vmfs 我是......目前还不清楚,不要犹豫。

Thx&最好,

Pille先生

1 个答案:

答案 0 :(得分:0)

您似乎遇到了网络问题,而不是Nagios问题。可能是电缆不良,网卡故障,路由问题,交换机振荡,arp表溢出,可能是任何事情。

由于这会影响所有主机/服务,并且间歇性地自行清除,我建议您先开始在本地连接上查找问题。如果它只影响某些项目而不影响其他项目,那么找到哪些主机具有共同的网络组件并检查它们。