如何在SchemaRDD上进行groupBy

时间:2015-03-11 12:56:28

标签: scala apache-spark apache-spark-sql

假设我有一个SchemaRDD tableRDD。我如何在某个列上进行groupBy并获得结果集的count(*) as countGrouped

我正在尝试类似的事情:

tableRDD.groupBy('colname)(??).collect()

我无法理解我的聚合函数应该是什么(由??表示)

1 个答案:

答案 0 :(得分:0)

如果是非*列,则只需将其放在引号中即可。所以,你的查询看起来像这样:

tableRDD.groupBy('colname)(count("*") as 'countGrouped).collect()