如何使用RDD,dataframe,dataset计算数组中重复的值

时间:2019-06-05 03:07:04

标签: scala apache-spark apache-spark-sql rdd apache-spark-dataset

我必须计算数组中的重复值

val arr = Array(1,2,2,3,4,5,5,5)

例如,如何使用RDD,Dataframe和Datasets计算数组中5s的数量?

1 个答案:

答案 0 :(得分:1)

如果将Scala数组int放入Seq中

val arr = Seq(1,2,2,3,4,5,5,5).toDF("num")
val counts = arr.groupBy($"num").agg(count($"num"))
scala> counts.show
+---+----------+
|num|count(num)|
+---+----------+
|  1|         1|
|  3|         1|
|  5|         3|
|  4|         1|
|  2|         2|
+---+----------+