如何在apache spark中加入两个(或更多)流(JavaDStream)

时间:2016-10-24 07:07:01

标签: java apache-spark spark-streaming

我们有一个消耗Gnip合规流的火花流应用程序。

在旧版本的API中,合规性流由一个端点提供,但现在由8个不同的端点提供。

我们可以使用不同的参数运行相同的spark应用程序8次以使用不同的端点。

火花流是否有一种方法可以消耗8个端点并将它们合并到同一个应用程序中?

我们是否应该为每个连接使用不同的流上下文,或者一个上下文就足够了?

1 个答案:

答案 0 :(得分:1)

我认为你在这里寻找Spark union

阅读以下示例Concatenating datasets of different RDDs in Apache spark using scala

根据Spark文档Spark union:

  

返回一个新数据集,其中包含元素的并集   源数据集和参数。