我们有一个消耗Gnip合规流的火花流应用程序。
在旧版本的API中,合规性流由一个端点提供,但现在由8个不同的端点提供。
我们可以使用不同的参数运行相同的spark应用程序8次以使用不同的端点。
火花流是否有一种方法可以消耗8个端点并将它们合并到同一个应用程序中?
我们是否应该为每个连接使用不同的流上下文,或者一个上下文就足够了?
答案 0 :(得分:1)
我认为你在这里寻找Spark union。
阅读以下示例Concatenating datasets of different RDDs in Apache spark using scala
根据Spark文档Spark union:
返回一个新数据集,其中包含元素的并集 源数据集和参数。