应用错误收集

输入拆分在哪里进行？

时间：2018-10-20 11:01:13

标签： mapreduce hadoop2

我有一个疑问，那就是重新定义map reduce如何在端到端溢出中起作用。第一个数据将以块形式存储在hdfs中。输入数据与map函数一起将被提交到资源管理器。现在资源管理器将任务分配给节点管理器。我知道输入拆分是由输入格式完成的我想知道这种输入格式在哪里。输入拆分是在任务分配给节点管理器之前完成的，还是在任务分配给节点管理器之后完成的，请您澄清一下我的困惑。知道hadoop2中的这个过程

1 个答案:

答案 0 :(得分：0)

输入数据以及地图功能将被提交给资源管理器。

数据的位置将提供给RM，以便所有读取都将首先放置为NODE_LOCAL。在需要远程读取之前，数据本身不会移出数据节点。

此输入格式在哪里

类本身位于hadoop classpath所示的路径上。拆分不是单独的数据对象，它仅与HDFS文件中的边界标记有关。

是在任务分配给节点管理器之前完成的输入拆分，还是在任务分配给节点管理器之后完成的输入拆分

在分配资源之前计算拆分。分割数决定了映射器的数量