假设我有两个具有以下值的Spark RDD
x = [(1, 3), (2, 4)]
和
y = [(3, 5), (4, 7)]
我希望
z = [(1, 3), (2, 4), (3, 5), (4, 7)]
我怎样才能做到这一点。我知道你可以使用outerJoin后跟map来实现这个目标,但是有更直接的方法。
答案 0 :(得分:6)
rdd.union(otherRDD)
为您提供问题
x.union(y)
答案 1 :(得分:0)
您可以使用+
运算符。在列表的上下文中,这是一个连接操作。
>>> x = [(1, 3), (2, 4)]
>>> y = [(3, 5), (4, 7)]
>>> z = x + y
>>> z
[(1, 3), (2, 4), (3, 5), (4, 7)]