在spark中连接两个PairRDD后存储值对象

时间:2016-10-06 06:04:16

标签: java apache-spark

我在spark中有两个PairRDD,例如

  

(K1,V1)和(K1,V2)

我正在尝试加入这两个RDD并将结果加入RDD:

  

(K1,列表(V1,V2))

我们怎么做?

2 个答案:

答案 0 :(得分:0)

在对RDD上执行加入。

 rdd1.join(rdd2) will give you the result (K1,(V1,V2)) 

如果您想将值作为列表,请尝试以下。

 rdd1.join(rdd2).mapValues(x=>List(x))

答案 1 :(得分:0)

我使用cogroup来实现此功能。