使用水槽拦截器逐行过滤文件

时间:2017-06-02 08:11:25

标签: regex hadoop hadoop2 flume flume-ng

我正在尝试配置从.csv或.xl3读取的水槽代理。文件示例:

ClientA  ClientB  Start-time  End-time    Duration    Status 
35862515 36958452 16/01/2017  16/01/2017  10          good
32456988 22583694 16/01/2017  16/01/2017  05          good
35968478 36985724 16/01/2017  16/01/2017
32456988 22583694 16/01/2017  16/01/2017  01          good

我希望代理逐行过滤文件。如果Duration不为null,则事件将发送到hdfs / usr / admin / Good_Call,否则,该事件将被发送到另一个路径/ usr / admin / Bad_Call。

如何使用flume配置,拦截器

1 个答案:

答案 0 :(得分:0)

您可以使用taildir sinkregex extractor interceptor。作为正则表达式提取器的结果,您将拥有不同的标题,以及#34; good"并且"坏"线。最后,添加multiplexing channel selector,这将根据标头的值来决定发送事件的位置。