标签: apache-spark aggregation apache-spark-dataset
在Spark中对Dataset进行分组时,有两种方法:groupBy和groupByKey[K]。
Dataset
groupBy
groupByKey[K]
groupBy返回RelationalGroupedDataset,而groupByKey[K]返回KeyvalueGroupedDataset。
RelationalGroupedDataset
KeyvalueGroupedDataset
它们之间有什么区别?
在什么情况下我应该选择一个而不是另一个?
为什么我的问题与“Dataset vs DataFrame”的问题重复?我不明白。这显然是完全不同的事情!我的问题非常具体而非通用。