我不确定如何准确描述它,但例子是:
提供两个RDD:
x = sc.parallelize([("a", 1), ("b", 4)])
y = sc.parallelize([("a", 2), ("c", 8)])
,我想得到结果:
[(("a", 1), ("a", 2)), (("a", 1), ("c", 8)), (("b", 4), ("a", 2)), (("b", 4), ("c", 8))]
PySpark document中的join
转换似乎不适用于此示例。
所以我想问一下我可以用什么样的转换来获得预期的结果?谢谢!
答案 0 :(得分:1)
在阅读spark document之后,我找到了解决问题的方法之一:
x.cartesian(y)
答案 1 :(得分:0)
由于有一些模仿SQL的RDD操作,不是SparkContext.union()你在寻找什么?