Question

我的数据框有多行，基于我想比较每列值的列，找到列名。

例如

DF - id，名称，地址，街道，城市，国家，邮政编码根据ID，我想找出哪些字段存在差异。

Seq(1,aaa,no55,melbourne,australia,00001)
Seq(1,aaa,no55,melbourne,australia,00002)
Seq(2,aaa,no55,melbourne,australia,00001)
Seq(2,aaa,no55,melbourne,australia,00001)

此处，邮政编码在ID = 1

时存在差异

如何以更有效的方式执行此操作，因为我想检查该数据帧中的50列。谢谢你的进步。

Answer 1

使用df.groupBy("all your columns here").count().filter("count = 1").show它将为您提供至少一列的所有不同记录

Spark数据帧

1 个答案: