我的数据框有多行,基于我想比较每列值的列,找到列名。
例如DF - id,名称,地址,街道,城市,国家,邮政编码 根据ID,我想找出哪些字段存在差异。
Seq(1,aaa,no55,melbourne,australia,00001)
Seq(1,aaa,no55,melbourne,australia,00002)
Seq(2,aaa,no55,melbourne,australia,00001)
Seq(2,aaa,no55,melbourne,australia,00001)
此处,邮政编码在ID = 1
时存在差异如何以更有效的方式执行此操作,因为我想检查该数据帧中的50列。谢谢你的进步。
答案 0 :(得分:-1)
使用df.groupBy("all your columns here").count().filter("count = 1").show
它将为您提供至少一列的所有不同记录