火花sql中UNION和DISTINCT的替代方案

时间:2018-06-05 06:26:22

标签: scala apache-spark apache-spark-sql

我正在尝试合并同一数据集的两个版本(来自不同的数据源,gs bucket和kafka),结果中只有不同的值。虽然UNION和DISTINCT是一个明显的解决方案,但我一直在寻找一种更经济的方法。

0 个答案:

没有答案