标签: apache-spark
rdd.union()和++通过消除RDD中的重复对象来进行联合。我认为这是连接两个已知具有不同元素的RDD的昂贵方法。有什么替代方案?
答案 0 :(得分:0)
rdd.union()和++通过消除重复的对象来实现联合
你错了++
++
def ++(other: RDD[T]): RDD[T] 返回此RDD与另一个RDD的并集。任何相同的元素都会出现多次(使用.distinct()来消除它们)
def ++(other: RDD[T]): RDD[T]
返回此RDD与另一个RDD的并集。任何相同的元素都会出现多次(使用.distinct()来消除它们)
和union:
union
def union(other: RDD[T]): RDD[T] 返回此RDD与另一个RDD的并集。任何相同的元素都会出现多次(使用.distinct()来消除它们)。
def union(other: RDD[T]): RDD[T]
返回此RDD与另一个RDD的并集。任何相同的元素都会出现多次(使用.distinct()来消除它们)。
未设置联合。
同样适用于Dataset.union。
Dataset.union