在Spark Streaming中合并两个流

时间:2014-05-08 15:52:58

标签: merge stream apache-spark

你可以通过以下问题将我推向正确的方向吗? (即使链接到包含所需信息的文档也会受到赞赏。)

是否有能力将多个数据流合并为元组流。

E.g。我们有流A和元素(A1,t1),(A2,t2),...(An,tn)和流B与元素(B1,t1和#39;),(B2,t2'),. ..,(Bn,tn')。

其中t是值的时间(值实际上是时间序列)。

我想接收带有值

的流C.

(A1",B1",t1"),...,(An",Bn",tn")

来自A流和B流的时间可能不同(这就是我使用'和#34;的原因)。度量标准可以在不同的时间和不同的速率下消费。在这种情况下,在合并流时必须使用具有最新所需时间戳的值。

1 个答案:

答案 0 :(得分:3)

您可以使用DStream.join。当在(K,V)和(K,W)对的两个DStream上调用时,返回(K,(V,W))对的新DStream与每个键的所有元素对。