清理或过滤数据

时间:2016-02-13 13:42:35

标签: spark-streaming flume

我正在使用火花流,我在使用Flume接收器。

流式事件包含许多我不需要的字段。所以,我想过滤掉它。

我只是想检查哪个是更好的过滤数据的地方:

  • 应用水槽拦截器来改变数据,然后将其赋予火花或流媒体。
  • 在Spark Streaming中对DStream应用过滤。

先谢谢。

1 个答案:

答案 0 :(得分:1)

这两个选项都有效。取决于您可以决定的两件事 -

  1. Flume拦截器是更加分离的方式。
  2. Spark stream会更快。
  3. 如果你每秒钟接收的事件数量超过了我想说的火花流量,那么如果不是这样的情况,请选择水槽拦截器。