我必须计算数组中的重复值
val arr = Array(1,2,2,3,4,5,5,5)
例如,如何使用RDD,Dataframe和Datasets计算数组中5s的数量?
答案 0 :(得分:1)
如果将Scala数组int放入Seq中
val arr = Seq(1,2,2,3,4,5,5,5).toDF("num")
val counts = arr.groupBy($"num").agg(count($"num"))
scala> counts.show
+---+----------+
|num|count(num)|
+---+----------+
| 1| 1|
| 3| 1|
| 5| 3|
| 4| 1|
| 2| 2|
+---+----------+