我知道每个映射器将其中间数据写入磁盘,然后reducers将其输出转储到磁盘。在mapreduce作业期间,还有其他时间数据可能会溢出到磁盘吗?我正在寻找任何可能的时间,即使它不是典型的工作。
答案 0 :(得分:1)
MR从HDFS接收输入,每个映射任务处理它,保留在内存中,如果超过默认的100MB(io.sort.mb),则将其拆分为磁盘。然后reducer将结果输出到HDFS而不是disk.For更多细节检查链接, https://www.inkling.com/read/hadoop-definitive-guide-tom-white-3rd/chapter-6/shuffle-and-sort
答案 1 :(得分:1)