在Apache Spark

时间:2017-04-08 17:02:38

标签: python apache-spark pyspark rdd

我有两个带有N个元素的火花RDD。

e.g。

rdd1= [1,2,5,7,50,....] 
rdd2= [5,7,5,6,8,.....]

如何添加它们并输出[6,9,10,13,58,....]? 请使用Python提供解决方案。

1 个答案:

答案 0 :(得分:1)

您只需要zip RDD并在创建的元组上映射sum

rdd1 = sc.parallelize([1,2,5,7,50])
rdd2 = sc.parallelize([5,7,5,6,8])

print(rdd1.zip(rdd2).map(sum).collect())

输出

[6, 9, 10, 13, 58]