应用错误收集

时间：2018-01-30 05:29:17

标签： apache-spark aggregation apache-spark-dataset

在Spark中对Dataset进行分组时，有两种方法：groupBy和groupByKey[K]。

groupBy返回RelationalGroupedDataset，而groupByKey[K]返回KeyvalueGroupedDataset。

它们之间有什么区别？

在什么情况下我应该选择一个而不是另一个？

为什么我的问题与“Dataset vs DataFrame”的问题重复？我不明白。这显然是完全不同的事情！我的问题非常具体而非通用。

没有答案