Question

我对Nagios有一个奇怪的问题。重启后一切都运行得很好。几个小时后，主机会显示下来，一分钟后再显示（请参阅下面的历史记录）。之后，所有服务都会因超时而失败。

同时所有服务器都不会发生这种情况。服务器失败似乎是随机的。

历史记录：

[2013-06-26 19:19:07] SERVICE ALERT: HyperV 1;Check CPU HyperV 1;CRITICAL;SOFT;1;CHECK_NRPE: Socket timeout after 120 seconds.
[2013-06-26 19:17:27] HOST ALERT: HyperV 1;UP;SOFT;2;PING OK - Packet loss = 0%, RTA = 3.01 ms
[2013-06-26 19:16:17] HOST ALERT: HyperV 1;DOWN;SOFT;1;PING CRITICAL - Packet loss = 100%

到目前为止我尝试了什么。

- 增加超时

- 更改主机检查，以便在失败前更频繁地检查（5次而不是1次）

- 从命令行执行脚本 - ＆gt;也失败了（也许是Ubuntu问题？）

-Checked双方记录错误（找不到任何内容）

重启后一切都很好。

系统信息：

-Nagios正在Ubuntu 13.04上运行

- 有些客户端使用NSClient ++运行不同的Windows

-ESX版本从4.0到5.1

插件：

-check_nrpe

来自Nagios Exchange

的

-check_vmfs 我是......目前还不清楚，不要犹豫。

Thx＆amp;最好，

Pille先生

Answer 1

您似乎遇到了网络问题，而不是Nagios问题。可能是电缆不良，网卡故障，路由问题，交换机振荡，arp表溢出，可能是任何事情。

由于这会影响所有主机/服务，并且间歇性地自行清除，我建议您先开始在本地连接上查找问题。如果它只影响某些项目而不影响其他项目，那么找到哪些主机具有共同的网络组件并检查它们。

Nagios：主机停机 - ＆gt;之后，所有服务似乎都超时了

1 个答案: