Spark数据帧

时间:2017-01-20 10:41:13

标签: scala apache-spark spark-dataframe

我的数据框有多行,基于我想比较每列值的列,找到列名。

例如

DF - id,名称,地址,街道,城市,国家,邮政编码 根据ID,我想找出哪些字段存在差异。

Seq(1,aaa,no55,melbourne,australia,00001)
Seq(1,aaa,no55,melbourne,australia,00002)
Seq(2,aaa,no55,melbourne,australia,00001)
Seq(2,aaa,no55,melbourne,australia,00001)

此处,邮政编码在ID = 1

时存在差异

如何以更有效的方式执行此操作,因为我想检查该数据帧中的50列。谢谢你的进步。

1 个答案:

答案 0 :(得分:-1)

使用df.groupBy("all your columns here").count().filter("count = 1").show它将为您提供至少一列的所有不同记录