在hadoop中,如何减少任务从地图任务中提取数据

时间:2012-04-18 20:31:50

标签: java hadoop

据我所知,reducer通过http拉取地图输出。但是,由于每个map任务都将其所有溢出内容合并到一个文件中,reduce任务如何从map任务中提取这些中间数据?只是那个文件的一部分?

1 个答案:

答案 0 :(得分:1)

地图任务的输出按分区编号排序。每个分区号对应一个reducer。当减速器拉动输出时,文件指针将偏移到减速器的分区号的起始位置并开始读取。当然,在映射器端维护一些分区号到文件偏移表来实现这一点。