应用错误收集

Hadoop返回的文件大小是否包含复制因子？

时间：2019-02-20 05:52:19

标签： hadoop hdfs

我的文件存储在HDFS上，我需要获取其大小。我在命令提示符下使用以下行来获取文件大小

hadoop fs -du -s train.csv | awk '{{s+=$1}} END {{printf s}}

我知道Hadoop存储由复制因子决定的文件副本。因此，当我在上面的行中运行时，返回的大小是文件大小乘以复制因子还是仅仅是文件大小？

1 个答案:

答案 0 :(得分：0)

从Hadoop文档中：

du返回以下格式的三列：大小disk_space_consumed_with_all_replicas full_path_name https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

如您所见，第一列是文件的大小，而第二列是消耗的空间，包括副本。