输入拆分在哪里进行?

时间:2018-10-20 11:01:13

标签: mapreduce hadoop2

我有一个疑问,那就是重新定义map reduce如何在端到端溢出中起作用。 第一个数据将以块形式存储在hdfs中。输入数据与map函数一起将被提交到资源管理器。现在资源管理器将任务分配给节点管理器。我知道输入拆分是由输入格式完成的我想知道这种输入格式在哪里。输入拆分是在任务分配给节点管理器之前完成的,还是在任务分配给节点管理器之后完成的,请您澄清一下我的困惑。知道hadoop2中的这个过程

1 个答案:

答案 0 :(得分:0)

  

输入数据以及地图功能将被提交给资源管理器。

数据的位置将提供给RM,以便所有读取都将首先放置为NODE_LOCAL。在需要远程读取之前,数据本身不会移出数据节点。

  

此输入格式在哪里

类本身位于hadoop classpath所示的路径上。拆分不是单独的数据对象,它仅与HDFS文件中的边界标记有关。

  

是在任务分配给节点管理器之前完成的输入拆分,还是在任务分配给节点管理器之后完成的输入拆分

在分配资源之前计算拆分。分割数决定了映射器的数量