HDFS块大小与网络复制流量之间的关系是什么?

时间:2015-08-07 13:21:35

标签: hadoop hbase hdfs replication opentsdb

相对于我们认为通过OpenTSDB写入的数据量,我们的HBase群集拥有大量的网络流量。

到OpenTSDB的中继字节:

enter image description here

字节中的网络吞吐量(Y轴是SI单位,因此不是base2):

enter image description here

我们使用Cloudera,所以块是128MB,将其更改为64MB减少网络复制流量?是否还有其他后果需要考虑?

1 个答案:

答案 0 :(得分:1)

要明确回答会降低块大小减少复制流量的问题,答案是

HDFS客户端不会立即写入整个块的数据 - 它们一次以64k-128k字节的小校验和数据流(可配置)流式传输,构建到管道中DataNode的整个块

降低块大小只会产生一种效果:跨越更多DataNode的块越多。它不会改变传输速率和总网络利用率,这完全由目标数据写入大小和复制因子驱动​​,而不是由HDFS逻辑块大小属性驱动。