结合Pyspark或Spark中的多个键

时间:2016-03-29 10:50:48

标签: apache-spark pyspark key-value

大家好我是新来的火花.. 我有一个格式为(K1,K2,Row(val1)) (K1,K2,Row(val2))的RDD,其中K1和K2一起构成unique key。我想把它结合在K1和K2上。

(K1,K2,Row(val1,val2))任何人都可以提出建议,我一直在寻找这个,但没有得到任何有用的东西。

谢谢你

1 个答案:

答案 0 :(得分:1)

将您的数据映射到((K1, K2), V)格式并将其用作任何其他PairRDD

rdd
  .map(lambda ksv: ((ksv[0], ksv[1]), ksv[2]))
  .reduceByKey(...) # Or other method you want to use