应用错误收集

Spark内存使用情况

时间：2017-01-31 19:59:12

标签： apache-spark

我已阅读过spark文档，我想确保我做的正确。 https://spark.apache.org/docs/latest/tuning.html#memory-usage-of-reduce-tasks

Spark的shuffle操作（sortByKey，groupByKey，reduceByKey，join，等）在每个任务中构建一个哈希表来执行分组，通常很大。

此解决方案如何附带＆＃34;输入文件分割大小＆＃34;？我的理解是很多任务会创建很多小文件。在shuffle操作后，我应该重新分区数据到较少数量的分区吗？

0 个答案:

没有答案