我在spark中有两个PairRDD,例如
(K1,V1)和(K1,V2)
我正在尝试加入这两个RDD并将结果加入RDD:
(K1,列表(V1,V2))
我们怎么做?
答案 0 :(得分:0)
在对RDD上执行加入。
rdd1.join(rdd2) will give you the result (K1,(V1,V2))
如果您想将值作为列表,请尝试以下。
rdd1.join(rdd2).mapValues(x=>List(x))
答案 1 :(得分:0)
我使用cogroup来实现此功能。