Question

我的df如下所示，并希望使用Scala添加其他列

Id Name
1  ab
2  BC
1  Cd
2  mf
3  Hh

预期输出应低于

Id name repeatedcount
1  ab      2
2  BC      2
1  Cd      2
2  mf      2
3  Hh      3

我使用DF.groupBy($"id").count.show()，但我得到的输出不同。

有人可以帮我解决这个问题。

Answer 1

val grouped = df.groupBy($"id").count

val res = df.join(grouped,Seq("id"))
            .withColumnRenamed("count","repeatedcount")

分组依据将给出每个ID的计数。加入原始数据框以计算每个ID。