Spark DataFrame类上的union()方法在哪里?

时间:2016-01-25 12:04:58

标签: java apache-spark dataframe apache-spark-sql

我正在使用Spark的Java连接器并希望将两个DataFrame联合起来,但奇怪的是DataFrame类只有unionAll?这是故意的,有没有办法结合两个DataFrames没有重复?

1 个答案:

答案 0 :(得分:14)

  

这是故意的

如果认为可以安全地假设它是故意的。其他联盟运营商(如RDD.unionDataSet.union)也会保留重复项。

如果你认为它有意义。虽然等同于UNION ALL的操作只是一个逻辑操作,不需要数据访问或网络流量查找不同的元素需要随机播放,因此可能非常昂贵。

  

有没有办法将两个DataFrame合并而不重复?

df1.unionAll(df2).distinct()