假设我有一个SchemaRDD tableRDD。我如何在某个列上进行groupBy并获得结果集的count(*) as countGrouped
。
我正在尝试类似的事情:
tableRDD.groupBy('colname)(??).collect()
我无法理解我的聚合函数应该是什么(由??
表示)
答案 0 :(得分:0)
如果是非*
列,则只需将其放在引号中即可。所以,你的查询看起来像这样:
tableRDD.groupBy('colname)(count("*") as 'countGrouped).collect()