使用scala的API基于spark中的多个列对数据进行分组

时间:2015-12-07 10:40:26

标签: scala apache-spark

我有一个RDD,希望根据多列对数据进行分组。对于大型数据集spark无法使用combineByKeygroupByKeyreduceByKeyaggregateByKey,这些会产生堆空间错误。你能提供另一种使用Scala API解决它的方法吗?

1 个答案:

答案 0 :(得分:1)

您可能希望使用treeReduce()来执行Spark中的增量减少。但是,你假设火花不适用于大型数据集是不正确的,我怀疑你的数据中没有足够的分区,所以也许你需要repartition()