Question

假设我有一个SchemaRDD tableRDD。我如何在某个列上进行groupBy并获得结果集的count(*) as countGrouped。

我正在尝试类似的事情：

tableRDD.groupBy('colname)(??).collect()

我无法理解我的聚合函数应该是什么（由??表示）

Answer 1

如果是非*列，则只需将其放在引号中即可。所以，你的查询看起来像这样：

tableRDD.groupBy('colname)(count("*") as 'countGrouped).collect()