在Apache Spark中,是否有连接RDD而不是联合?

时间:2018-02-02 19:46:16

标签: apache-spark

rdd.union()和++通过消除RDD中的重复对象来进行联合。我认为这是连接两个已知具有不同元素的RDD的昂贵方法。有什么替代方案?

1 个答案:

答案 0 :(得分:0)

  

rdd.union()和++通过消除重复的对象来实现联合

你错了++

  

def ++(other: RDD[T]): RDD[T]

     

返回此RDD与另一个RDD的并集。任何相同的元素都会出现多次(使用.distinct()来消除它们)

union

  

def union(other: RDD[T]): RDD[T]

     

返回此RDD与另一个RDD的并集。任何相同的元素都会出现多次(使用.distinct()来消除它们)。

未设置联合。

同样适用于Dataset.union