应用错误收集

时间：2016-05-30 18:41:45

标签： hadoop hdfs

当我正在通过hadoop权威指南时，我坚持下面的句子： -

写入reduce输出会消耗网络带宽，但仅限于就像正常的HDFS写入管道消耗一样。

问题：有些人可以帮助我更详细地理解上面的句子。 2.“HDFS写入管道”是什么意思？

答案 0 :(得分：2)

当文件写入HDFS时，许多事情都在与HDFS块一致性和复制相关的幕后进行。此过程的主要IO组件是到目前为止的复制。还有与名称节点的双向通信，用于注册块的存在和状态。

我想当它说'＃34;写管道＆＃34;它只是意味着以下过程：

答案 1 :(得分：0)

可以理解如下： -

* Datapipeline正在向数据节点写入数据而没有。要写入的数据节点由复制因子决定，默认为3。

*因为减少输出将存储在3个不同的节点，这由数据管道决定。因此，网络消耗将等于用数据写入的数据管道。

*我们可以通过下图了解相同的情况，其中HDFS客户端从NN获取数据管道的位置，并通过其中涉及的握手程序写入它。（握手程序在这里有点复杂，我们不会进入它的细节。）BTW图取自Cloudera's site