Spark:从单个DStream中获取多个DStream

时间:2016-01-20 10:17:15

标签: apache-spark spark-streaming dstream

是否可以从spark中的单个DStream中获取多个DStream。 我的用例如下:我从HDFS文件中获取日志数据流。 日志行包含id(id = xyz)。 我需要根据id以不同方式处理日志行。 所以我尝试从输入Dstream为每个id尝试不同的Dstream。 我在文档中找不到任何相关内容。 有谁知道如何在Spark中实现这一点或指向任何链接。

谢谢

1 个答案:

答案 0 :(得分:0)

您无法从单个DStream中拆分多个DStream。 你能做的最好的是: -

  1. 修改源系统,使其具有不同ID的不同流,然后您可以使用不同的作业来处理不同的Streams
  2. 如果您的源无法更改并为您提供ID混合的流,那么您需要编写自定义逻辑来识别ID,然后执行相应的操作。
  3. 我总是更喜欢#1,因为这是更清晰的解决方案,但也有例外需要实施#2。