我正在使用Spark的Java连接器并希望将两个DataFrame联合起来,但奇怪的是DataFrame类只有unionAll?这是故意的,有没有办法结合两个DataFrames没有重复?
答案 0 :(得分:14)
这是故意的
如果认为可以安全地假设它是故意的。其他联盟运营商(如RDD.union
和DataSet.union
)也会保留重复项。
如果你认为它有意义。虽然等同于UNION ALL
的操作只是一个逻辑操作,不需要数据访问或网络流量查找不同的元素需要随机播放,因此可能非常昂贵。
有没有办法将两个DataFrame合并而不重复?
df1.unionAll(df2).distinct()