标签: apache-spark
考虑下面的DF1数据框。
DF1
a b c d
我需要在下面的组合中
a,b a,c a,d b,c b,d c,d
我如何实现这一点是Spark。 (它是不重复自我的笛卡尔积?)
答案 0 :(得分:1)
如果您可以转换为RDD:
rdd.cartesian(rdd).filter{case (a, b) => a.getString(0) < b.getString(0)},您可以插入定义所需顺序的自定义函数而不是<。
rdd.cartesian(rdd).filter{case (a, b) => a.getString(0) < b.getString(0)}
<