应用错误收集

在Apache Spark中，是否有连接RDD而不是联合？

时间：2018-02-02 19:46:16

标签： apache-spark

rdd.union（）和++通过消除RDD中的重复对象来进行联合。我认为这是连接两个已知具有不同元素的RDD的昂贵方法。有什么替代方案？

1 个答案:

答案 0 :(得分：0)

rdd.union（）和++通过消除重复的对象来实现联合

你错了++

def ++(other: RDD[T]): RDD[T]

返回此RDD与另一个RDD的并集。任何相同的元素都会出现多次（使用.distinct（）来消除它们）

def union(other: RDD[T]): RDD[T]

返回此RDD与另一个RDD的并集。任何相同的元素都会出现多次（使用.distinct（）来消除它们）。

未设置联合。

同样适用于Dataset.union。