应用错误收集

在mapreduce作业中，何时将数据写入磁盘？

时间：2014-09-28 02:26:14

标签： hadoop mapreduce

我知道每个映射器将其中间数据写入磁盘，然后reducers将其输出转储到磁盘。在mapreduce作业期间，还有其他时间数据可能会溢出到磁盘吗？我正在寻找任何可能的时间，即使它不是典型的工作。

2 个答案:

答案 0 :(得分：1)

MR从HDFS接收输入，每个映射任务处理它，保留在内存中，如果超过默认的100MB（io.sort.mb），则将其拆分为磁盘。然后reducer将结果输出到HDFS而不是disk.For更多细节检查链接， https://www.inkling.com/read/hadoop-definitive-guide-tom-white-3rd/chapter-6/shuffle-and-sort

答案 1 :(得分：1)

您可以定义映射器将其输出溢出为

的百分比

mapred.site.xml文件中的mapred.reduce.slowstart.completed.maps。

This 可能有帮助！