Hadoop文件系统大小du命令

时间:2018-01-18 13:48:11

标签: hadoop command filesystems hdfs replication

我想知道hadoop fs -du的两个输出是什么意思。文档上不清楚:

In [16]: subprocess.call(["hadoop", "fs", "-du","-
h","/project/crm/warehouse/"])

输出:

  

5.9 G 17.8 G / project / crm / warehouse / n98770_patron_1

路径的实际大小是多少? 5.9 GB还是17.8?

谢谢

1 个答案:

答案 0 :(得分:2)

第一列是实际文件或目录大小,而第二列是由于复制而消耗的实际空间

由于HDFS会复制您的数据,因此第二个字段会显示其后占用的磁盘空间总量。

在这种情况下,您的总大小为17.8,基本大小为5.9

  

17.8 / 5.9大致为3

这意味着您的hdfs群集的复制因子为3(是默认值)。

如果复制因子为2,则输出为:

  

5.9 G 12 G / project / crm / warehouse / n98770_patron_1