如何使用Apache Flume过滤多个源数据?

时间:2017-08-18 15:02:05

标签: hadoop flume flume-ng flume-twitter

我使用flume处理多个源数据并存储在HDFS中,但我无法理解如何在存储到HDFS之前过滤数据。

1 个答案:

答案 0 :(得分:0)

您有两种选择:

  • 使用Flume拦截器,检查答案here
  • 使用基于流的解决方案(Apache spark,Apache Heron / Storm)来过滤记录,然后将其存储在HDFS中,

第二选项为您提供更多灵活性来编写不同类型的流模式。如果您有更多疑问,请添加评论。