如何合并元素两个RDD

时间:2015-05-18 07:45:30

标签: python apache-spark pyspark rdd

假设我有两个RDD,如

首先

1
2
3
4
5

第二

6
7
8
9
10

新的RDD将是

1 6
2 7
3 8
4 9
5 10

所以,这基本上是元素明智的合并...我们假设两个RDD的大小相同。

1 个答案:

答案 0 :(得分:5)

您可以使用Spark的zip功能。根据文件:

>>> x = sc.parallelize(range(0,5))
>>> y = sc.parallelize(range(1000, 1005))
>>> x.zip(y).collect()
[(0, 1000), (1, 1001), (2, 1002), (3, 1003), (4, 1004)]

请注意,此函数假定两个RDD中的分区数相同且元素数相同。