大家好我是新来的火花..
我有一个格式为(K1,K2,Row(val1)) (K1,K2,Row(val2))
的RDD,其中K1和K2一起构成unique key
。我想把它结合在K1和K2上。
(K1,K2,Row(val1,val2))
任何人都可以提出建议,我一直在寻找这个,但没有得到任何有用的东西。
谢谢你
答案 0 :(得分:1)
将您的数据映射到((K1, K2), V)
格式并将其用作任何其他PairRDD
:
rdd
.map(lambda ksv: ((ksv[0], ksv[1]), ksv[2]))
.reduceByKey(...) # Or other method you want to use