Map Reduce的第一步是将输入文件复制到HDFS。 想知道这个存储的确切位置;在名称节点或数据节点上或其他位置?
当我们说要复制到HDFS时,我们确切地存储输入文件最初? (我后来知道我们拆分并存储在数据节点上)。
或者我们直接从源/输入机器的数据块复制到数据节点? (我确信情况并非如此)
答案 0 :(得分:1)
将文件放入HDFS是客户端,Name节点和Data节点之间的协调工作。在非常高的级别,客户端与名称节点对话以识别需要存储文件的数据节点,然后客户端将第一个块发送到初始数据节点并传输文件,随后传输以复制该特定文件阻止从该特定数据节点发生。
阅读详细协议from here。