Flume Agent故障处理

时间:2015-10-20 07:38:07

标签: hadoop flume

我写的flume代理将在生产服务器上全天候运行。但有一段时间我发现水槽剂无声地熄灭了。

我需要一种机制,当发生这种情况时,它至少可以向客户/用户发出警报。

处理此案件的任何建议。

2 个答案:

答案 0 :(得分:0)

首先关闭:我最好让你查看日志,看看为什么Flume会崩溃。如果没有,请查看您是否可以将日志记录级别更改为WARNINFO,因为Flume不应该崩溃。它在我的盒子上运行了很长时间。

如果你想继续创建监控机制:afaik Flume不支持这样的事情,但是一个简单的bash脚本应该可以解决这个问题。这是一个例子。当Flume关闭时,您必须自定义执行操作的命令。

#!/bin/bash
process_identification_str='flume-ng'
while "true"; do
    ps=$(ps aux | grep "$process_identification_str" | grep -v 'grep')
    if [ -z "$ps" ]; then
        echo 'ALARM!'
    fi
    sleep 1
done

答案 1 :(得分:0)

看看我发现了什么:" Flume中的监控仍在进行中。变化可能经常发生。几个Flume组件向JMX平台MBean服务器报告度量标准。可以使用Jconsole查询这些指标。"

https://books.google.com.co/books?id=u1bTBgAAQBAJ&pg=PA145&lpg=PA145&dq=Monitoring+in+Flume+is+still+a+work+in+progress.+Changes+can+happen+very+often.+Several+Flume+components+report+metrics+to+the+JMX+platform+MBean+server.+These+metrics+can+be+queried+using+Jconsole.&source=bl&ots=WgCjzsZ399&sig=CUra1DUhWgx0H87HZ59FdwdW-9E&hl=es&sa=X&ved=0ahUKEwiD3dvVoJrRAhXMSSYKHWHqDzsQ6AEIGzAA

现在似乎不可能原生地监视这个组件。

问候!