您好我最近开始阅读有关Hadoop的内容。 我有几个问题,希望你能帮助我。
假设我已在多节点群集上运行Map Reduce Java作业。 我有一个文件在不同的数据节点周围被分成10个。
现在让我说我已经为主文件写了一个查询 -
答案 0 :(得分:1)
1.是否从主名称节点收到执行计划? 不,任务由taskrunner安排,namenode包含有关您数据的元数据。即保存文件的分割部分。
2.它是否知道所有部分文件的位置? 是的,请参阅第1点
3.它会从所有部分文件中获取所有数据吗? 不,您的程序将被发送到节点,数据永远不会进入程序。
4.我可以在同一数据节点上有多个部分文件吗? 是的,根据可用性和空间限制,有可能在同一节点中至少有一个数据复制不存在。因此,如果此节点出现故障,我们仍然可以访问数据。