Nagios报告然后立即报告

时间:2017-09-10 01:57:27

标签: ubuntu nagios

我已经使用Nagios监控一堆服务器大约一年了。它很棒。但最近,Nagios开始向我发送电子邮件,说每个主机都出现故障。然后,紧接着,会告诉我每个主机都没问题。

它每天都在这样做。我早上醒来时发了40多封电子邮件。

Nagios.log显示这些行,这些行似乎与我的网址中的单个行为有关:

[1505007529] SERVICE ALERT: myurl.com;/;CRITICAL;HARD;1;HTTP CRITICAL: Status line output matched "200" - 48479 bytes in 10.223 second response time
[1505007529] SERVICE NOTIFICATION: nagiosadmin;myurl.com;/;CRITICAL;notify-service-by-email;HTTP CRITICAL: Status line output matched "200" - 48479 bytes in 10.223 second response time
[1505007579] SERVICE ALERT: myurl.com;/;OK;HARD;1;HTTP OK: Status line output matched "200" - 48479 bytes in 0.197 second response time
[1505007579] SERVICE NOTIFICATION: nagiosadmin;myurl.com;/;OK;notify-service-by-email;HTTP OK: Status line output matched "200" - 48479 bytes in 0.197 second response time

警报似乎是它意识到事情发生了变化的地方。通知似乎是它向我发送电子邮件的地方。然后提醒备份。然后发送电子邮件进行备份。

现在,这是我用来监控网址的命令:

define command{
   command_name    check_http_url
   command_line    $USER1$/check_http --expect="200" -w 5 -c 10 -t 20 -H $ARG1$
}

我认为服务器可能无法足够快地响应ping。所以,我想增加Nagios等待回应的时间。

因此,我添加了-w,-c和-t来调试问题。在我尝试添加这些之前,它就像这样表现了一个月。这些似乎没有任何帮助。

以下是我的服务定义:

define service{
    host_name                       myurl.com
    service_description             /
    max_check_attempts              1
    check_interval                  1
    retry_interval                  1
    check_period                    24x7
    notification_period             24x7
    notification_interval           10
    check_command                   check_http_url!myurl.com
    notifications_enabled           30
    contact_groups                  admins
    contacts                        nagiosadmin
    notification_options            w,u,c,r
    }

让我再说一遍,这个工作超过7个多月了。然后,开始采取行动。一旦我开始工作,我没有亲自更改任何配置。

如果仅报告单个服务器,我愿意接受受监控服务器响应缓慢。但大多数情况下,我会将3-4台服务器作为故障返回,然后同时备份。这使我认为问题实际上与nagios环境有关,而不是其他服务器。

提前感谢您帮我调试。

1 个答案:

答案 0 :(得分:0)

只是一些意见, 有时延迟较高会导致Nagios ping ==失败

首先,检查网络: 您可以使用ping脚本,连续ping,ping失败或延迟时间来检查网络环境,并将其记录在日志中。只是想确认Nagios和其他服务器之间没有循环或阻塞的东西。

其次,检查Nagios服务器: 如果网络工作正常,您只需在其他服务器上设置Nagios服务器进行监控,确保它是您的Nagios服务器问题。