我正在使用石墨收集一些指标,但有时没有数据进入它(可能是因为服务器已经关闭,或者没有网络连接)。我希望nagios在这样的活动中给我发送警报。我该怎么做?
答案 0 :(得分:0)
您可以使用nagios-plugins中的check_file_age脚本来检查您正在从中收集数据的每个系统感兴趣的单个已知数据点。
check_file_age -w 600 -c 1800 /opt/graphite/storage/whisper/servers/$(uname -f)/cpu/idl.wsp
如果某个指标在5分钟内丢失,则会提醒您。
其他
您可以在所有点上运行查找命令,并在n小时内报告任何尚未更新的命令。
#!/bin/bash
OLD_GRAPHS=$(find /opt/graphite/storage/whisper -mmin +120 -type f | wc -l)
if [[ OLD_GRAPHS -gt 0 ]];then
echo "Found ${OLD_GRAPHS} graph(s) without an update in 120 minutes"
exit 1
fi
echo "All graphs are up to date"
exit 0