将每个元素视为元组时,在PySpark中加入2个RDD

时间:2015-06-22 03:24:43

标签: python join apache-spark pyspark

我不确定如何准确描述它,但例子是:

提供两个RDD:

x = sc.parallelize([("a", 1), ("b", 4)])

y = sc.parallelize([("a", 2), ("c", 8)])

,我想得到结果:

[(("a", 1), ("a", 2)), (("a", 1), ("c", 8)), (("b", 4), ("a", 2)), (("b", 4), ("c", 8))]

PySpark document中的join转换似乎不适用于此示例。

所以我想问一下我可以用什么样的转换来获得预期的结果?谢谢!

2 个答案:

答案 0 :(得分:1)

在阅读spark document之后,我找到了解决问题的方法之一:

x.cartesian(y)

答案 1 :(得分:0)

由于有一些模仿SQL的RDD操作,不是SparkContext.union()你在寻找什么?