如何使用互斥键连接两个RDD

时间:2014-11-20 20:05:13

标签: python scala apache-spark

假设我有两个具有以下值的Spark RDD

x = [(1, 3), (2, 4)]

y = [(3, 5), (4, 7)]

我希望

z = [(1, 3), (2, 4), (3, 5), (4, 7)]

我怎样才能做到这一点。我知道你可以使用outerJoin后跟map来实现这个目标,但是有更直接的方法。

2 个答案:

答案 0 :(得分:6)

rdd.union(otherRDD)为您提供问题

中预期的两个rdds的联合

x.union(y)

答案 1 :(得分:0)

您可以使用+运算符。在列表的上下文中,这是一个连接操作。

>>> x = [(1, 3), (2, 4)]
>>> y = [(3, 5), (4, 7)]
>>> z = x + y
>>> z
[(1, 3), (2, 4), (3, 5), (4, 7)]