当我正在通过hadoop权威指南时,我坚持下面的句子: -
写入reduce输出会消耗网络带宽,但仅限于 就像正常的HDFS写入管道消耗一样。
问题: 有些人可以帮助我更详细地理解上面的句子。 2.“HDFS写入管道”是什么意思?
答案 0 :(得分:2)
当文件写入HDFS时,许多事情都在与HDFS块一致性和复制相关的幕后进行。此过程的主要IO组件是到目前为止的复制。还有与名称节点的双向通信,用于注册块的存在和状态。
我想当它说'#34;写管道"它只是意味着以下过程:
答案 1 :(得分:0)
可以理解如下: -
* Datapipeline正在向数据节点写入数据而没有。要写入的数据节点由复制因子决定,默认为3。
*因为减少输出将存储在3个不同的节点,这由数据管道决定。因此,网络消耗将等于用数据写入的数据管道。
*我们可以通过下图了解相同的情况,其中HDFS客户端从NN获取数据管道的位置,并通过其中涉及的握手程序写入它。(握手程序在这里有点复杂,我们不会进入它的细节。)BTW图取自Cloudera's site