Question

考虑下面的DF1数据框。

DF1

a
b
c
d

我需要在下面的组合中

a,b
a,c
a,d
b,c
b,d
c,d

我如何实现这一点是Spark。（它是不重复自我的笛卡尔积？）

Answer 1

如果您可以转换为RDD：

rdd.cartesian(rdd).filter{case (a, b) => a.getString(0) < b.getString(0)}，您可以插入定义所需顺序的自定义函数而不是<。