所有
我们正在使用splunk提取我们的主厨服务器日志,并计划监控所有活动以发出警报并构建仪表板,以防发生任何违规行为。 请在底部查看我们计划在Splunk中监控的所有指标和日志。 请建议我们如何充分利用chef-Splunk的集成。
我们希望看到:
有关Splunk-chef集成的任何信息都会很棒。
注意:这与厨师分析splunk应用程序无关,它更多地与查找风险和提高与厨师服务器和服务运行状况相关的警报有关。
度量:
日志文件:/var/log/opscode/opscode-erchef/requests.log.* 要检查的内容:状态= 50
如果指定的错误字符串(50 [0234])在5分钟内发生超过10次,则仅发出警报?
日志类型:ACCESS LOG
文件名 - /var/log/opscode/nginx/access.log
要检查的内容:HTTP / 1.1" 50 [0234]'
如果指定的错误字符串(50 [0234])在5分钟内发生超过10次,则仅发出警报?
检查后端服务器中的HA故障转移:文件名 - /var/log/opscode/keepalived/cluster.log 要检查的内容:过渡到主人 要检查的内容:卸载/ var / opt / opscode / drbd / data 要检查的内容:卷组中的0个逻辑卷"厨师"现在活跃了 如果满足上述任何条件,则发出警报
检查后端服务器中的HA故障转移:文件名 - / var / log / messages 要检查的内容:过渡到MASTER STATE 要检查的内容:进入MASTER STATE
文件名 - / var / opt / opscode / rabbitmq / log / rabbit @ localhost * 要检查的内容:错误 要检查的内容:错误
如果满足上述任何条件,则发出提醒