应用错误收集

使用scala的API基于spark中的多个列对数据进行分组

时间：2015-12-07 10:40:26

标签： scala apache-spark

我有一个RDD，希望根据多列对数据进行分组。对于大型数据集spark无法使用combineByKey，groupByKey，reduceByKey和aggregateByKey，这些会产生堆空间错误。你能提供另一种使用Scala API解决它的方法吗？

1 个答案:

答案 0 :(得分：1)

您可能希望使用treeReduce()来执行Spark中的增量减少。但是，你假设火花不适用于大型数据集是不正确的，我怀疑你的数据中没有足够的分区，所以也许你需要repartition()。