在hdfs中复制输入拆分的次数

时间:2014-07-21 02:44:30

标签: mapreduce

每个输入拆分在hadoop集群中复制3次。对于每个复制拆分,hadoop是否分配每个映射? 。如果然后分配哪个地图结果发送到reduce函数。 hadoop还复制了reduce函数

1 个答案:

答案 0 :(得分:1)

不,即使分割有三个副本,MapReduce引擎也只会分配一个映射器。它使用称为数据本地化的概念来决定使用哪个分割副本。

  

Hadoop尽力在输入的节点上运行map任务   数据驻留在HDFS中。这称为数据局部性   优化,因为它不使用宝贵的集群带宽。   但是,有时,托管HDFS的所有三个节点都会复制   对于地图任务的输入拆分正在运行其他地图任务,因此该作业   调度程序将在与同一机架中的节点上查找空闲映射槽   其中一个街区。很偶然,即使这是不可能的,所以   使用机架外节点,这会导致机架间网络传输。

请在下面找到Hadoop权威指南的摘录。

  

Hadoop将MapReduce作业的输入划分为固定大小的作品   称为输入拆分,或只是拆分。 Hadoop为其创建了一个地图任务   每个拆分,为每条记录运行用户定义的映射函数   在分裂。