在scala中逐个单元比较2个火花数据帧

时间:2020-02-26 18:09:09

标签: scala apache-spark

我正在将hive表中提取的数据与该源中的数据进行比较,并将差异存储在mariadb中。表中没有主键,希望有一个优化的解决方案,尽管我使用过除方法之外的其他方法我发现很难打印出同一行中不同列的差异。

1 个答案:

答案 0 :(得分:0)

据我所知,在没有主键的情况下无法解决您的问题,因为在这种情况下,一个DataFrame的每一行都可能与另一DataFrame的每一行不同,并且实际上您不想报告与其他DataFrame的每一行都不同。