我已阅读过spark文档,我想确保我做的正确。 https://spark.apache.org/docs/latest/tuning.html#memory-usage-of-reduce-tasks
Spark的shuffle操作(sortByKey,groupByKey,reduceByKey,join, 等)在每个任务中构建一个哈希表来执行分组, 通常很大。
此解决方案如何附带"输入文件分割大小"?我的理解是很多任务会创建很多小文件。 在shuffle操作后,我应该重新分区数据到较少数量的分区吗?