标签: java hadoop
据我所知,reducer通过http拉取地图输出。但是,由于每个map任务都将其所有溢出内容合并到一个文件中,reduce任务如何从map任务中提取这些中间数据?只是那个文件的一部分?
答案 0 :(得分:1)
地图任务的输出按分区编号排序。每个分区号对应一个reducer。当减速器拉动输出时,文件指针将偏移到减速器的分区号的起始位置并开始读取。当然,在映射器端维护一些分区号到文件偏移表来实现这一点。