check_mk“状态和进程数”规则阈值

时间:2017-08-30 10:03:53

标签: monitoring nrpe check-mk

我正在尝试将Nagios-NRPE检查转换为Check_MK检查。第一个是:

return (a+b);

我的尝试是使用 check_procs -w 10 -c 15 -C crond 规则,但它始终会引发严重警报。我的规则的参数是(从State and coung processes配置文件中提取):

rules.mk

由于WATO配置屏幕没有说明关键阈值,我猜测超出这些阈值的值会引发严重警报。

我的问题是:当此规则处于活动状态时,即使找到的进程数在OK阈值内,也会引发严重警报。

警报的'process': 'crond' 'okmax': 10 'okmin': 1 'warnmax': 15 'warnmin': 11

Status detail

然后,我无法理解这种行为,我觉得我误解了check_MK阈值参数或者我错过了什么。

你能帮助我吗?

提前完成。

1 个答案:

答案 0 :(得分:1)

正如我在上一段的问题中所怀疑的那样,我误解了check_MK阈值参数。

这些是~/share/check_mk/checks/ps中的python代码行:

state = 0
if count > params["warnmax"] or count < params["warnmin"]:
    state = 2
    infotext += " (ok from %d to %d)(!!)" % (params["okmin"], params["okmax"])
elif count > params["okmax"] or count < params["okmin"]:
    state = 1
    infotext += " (ok from %d to %d)(!)" % (params["okmin"], params["okmax"])

因此,任何低于 warnmin 的值都会引发严重警报。因此,为了防止这种情况发生, warn interval必须包含 ok 。在我的示例中,应降低 warmin 值以匹配 okmin

'process': 'crond'
'okmax':   10
'okmin':    1
'warnmax': 15
'warnmin':  1

在数学术语中, ok 区间必须是 warn 一个区间。

我错误地猜到这些间隔不应该重叠,但实际上它们必须重叠。