在mapreduce作业中,何时将数据写入磁盘?

时间:2014-09-28 02:26:14

标签: hadoop mapreduce

我知道每个映射器将其中间数据写入磁盘,然后reducers将其输出转储到磁盘。在mapreduce作业期间,还有其他时间数据可能会溢出到磁盘吗?我正在寻找任何可能的时间,即使它不是典型的工作。

2 个答案:

答案 0 :(得分:1)

MR从HDFS接收输入,每个映射任务处理它,保留在内存中,如果超过默认的100MB(io.sort.mb),则将其拆分为磁盘。然后reducer将结果输出到HDFS而不是disk.For更多细节检查链接,     https://www.inkling.com/read/hadoop-definitive-guide-tom-white-3rd/chapter-6/shuffle-and-sort

答案 1 :(得分:1)

您可以定义映射器将其输出溢出为

的百分比
  

mapred.site.xml文件中的mapred.reduce.slowstart.completed.maps。

This 可能有帮助!