什么是“HDFS写入管道”?

时间:2016-05-30 18:41:45

标签: hadoop hdfs

当我正在通过hadoop权威指南时,我坚持下面的句子: -

  

写入reduce输出会消耗网络带宽,但仅限于   就像正常的HDFS写入管道消耗一样。

问题: 有些人可以帮助我更详细地理解上面的句子。 2.“HDFS写入管道”是什么意思?

2 个答案:

答案 0 :(得分:2)

当文件写入HDFS时,许多事情都在与HDFS块一致性和复制相关的幕后进行。此过程的主要IO组件是到目前为止的复制。还有与名称节点的双向通信,用于注册块的存在和状态。

我想当它说'#34;写管道"它只是意味着以下过程:

  1. 创建块
  2. 注册NN
  3. 执行复制
  4. 写入刷新到磁盘
  5. 维护群集中的阻止状态(位置,锁定,最后更新,校验和等)

答案 1 :(得分:0)

可以理解如下: -

* Datapipeline正在向数据节点写入数据而没有。要写入的数据节点由复制因子决定,默认为3。

*因为减少输出将存储在3个不同的节点,这由数据管道决定。因此,网络消耗将等于用数据写入的数据管道。

*我们可以通过下图了解相同的情况,其中HDFS客户端从NN获取数据管道的位置,并通过其中涉及的握手程序写入它。(握手程序在这里有点复杂,我们不会进入它的细节。)BTW图取自Cloudera's site Data pipeline process