Spark数据帧groupBy和count()之后的列中的第一个和最后一个值。,

时间:2018-05-24 17:22:18

标签: scala apache-spark hadoop dataframe apache-spark-sql

在数据框架上,我在其上面使用了groupBy on timestamp applied count。我知道我可以在count上使用orderBy和desc或asc来查找最高和最低值,我还在数据帧上使用了reduce。但我需要在相同的输出或第一个和最后一个值中同时具有最高和最低值。我怎么能得到它。

Dataframe代码: df_new是我的源数据框。,

val df_REC = 
df_new.groupBy("id").count().orderBy(desc("count")).limit(1).show

OR

val df_REC = df_new.groupBy("id").count().reduce { (x, y) => 
if (x.getAs[Int]("count") > y.getAs[Int]("count")) x else y 
}

0 个答案:

没有答案