Spark内存使用情况

时间:2017-01-31 19:59:12

标签: apache-spark

我已阅读过spark文档,我想确保我做的正确。 https://spark.apache.org/docs/latest/tuning.html#memory-usage-of-reduce-tasks

  

Spark的shuffle操作(sortByKey,groupByKey,reduceByKey,join,   等)在每个任务中构建一个哈希表来执行分组,   通常很大。

此解决方案如何附带"输入文件分割大小"?我的理解是很多任务会创建很多小文件。 在shuffle操作后,我应该重新分区数据到较少数量的分区吗?

0 个答案:

没有答案