python - 将每个元素视为元组时，在PySpark中加入2个RDD - Thinbug

将每个元素视为元组时，在PySpark中加入2个RDD

时间：2015-06-22 03:24:43

标签： python join apache-spark pyspark

我不确定如何准确描述它，但例子是：

提供两个RDD：

x = sc.parallelize([("a", 1), ("b", 4)])

y = sc.parallelize([("a", 2), ("c", 8)])

，我想得到结果：

[(("a", 1), ("a", 2)), (("a", 1), ("c", 8)), (("b", 4), ("a", 2)), (("b", 4), ("c", 8))]

PySpark document中的join转换似乎不适用于此示例。

所以我想问一下我可以用什么样的转换来获得预期的结果？谢谢！

2 个答案:

答案 0 :(得分：1)

在阅读spark document之后，我找到了解决问题的方法之一：

x.cartesian(y)

答案 1 :(得分：0)

由于有一些模仿SQL的RDD操作，不是SparkContext.union()你在寻找什么？