hadoop fs -du输出不反映复制因子

时间:2019-07-01 16:25:37

标签: apache-spark hadoop hdfs

正如在其他几个问题(herehere)中所讨论的,hadoop fs -du -s -h命令(或等效的hdfs dfs -s -h)显示两个值:

  1. 纯文件大小
  2. 考虑复制的文件大小

例如

19.9 M  59.6 M  /path/folder/test.avro

因此,通常我们希望在复制因子为3的群集上,第二个数字是第一个数字的3倍。

但是最近检查正在运行的Spark作业时,第一个数字是246.9 K,第二个数字是3.4 G-大约大14,000倍!

这表明存在问题吗?为什么复制的大小不是原始大小的3倍?

这是因为其中一个值考虑了块大小,而另一个值没有考虑?

此命令上的Hadoop documentation并不是很有帮助,仅说明:

  

du返回以下格式的三列

     

size disk_space_consumed_with_all_replicas full_path_name

0 个答案:

没有答案