Spark数据框中的非重复对

时间:2016-03-15 02:08:02

标签: apache-spark

考虑下面的DF1数据框。

DF1

a
b
c
d

我需要在下面的组合中

a,b
a,c
a,d
b,c
b,d
c,d

我如何实现这一点是Spark。 (它是不重复自我的笛卡尔积?)

1 个答案:

答案 0 :(得分:1)

如果您可以转换为RDD:

rdd.cartesian(rdd).filter{case (a, b) => a.getString(0) < b.getString(0)},您可以插入定义所需顺序的自定义函数而不是<