标签: scala apache-spark apache-spark-sql
我正在尝试合并同一数据集的两个版本(来自不同的数据源,gs bucket和kafka),结果中只有不同的值。虽然UNION和DISTINCT是一个明显的解决方案,但我一直在寻找一种更经济的方法。