应用错误收集

正如在其他几个问题（here和here）中所讨论的，hadoop fs -du -s -h命令（或等效的hdfs dfs -s -h）显示两个值：

例如

19.9 M  59.6 M  /path/folder/test.avro

因此，通常我们希望在复制因子为3的群集上，第二个数字是第一个数字的3倍。

但是最近检查正在运行的Spark作业时，第一个数字是246.9 K，第二个数字是3.4 G-大约大14,000倍！

这表明存在问题吗？为什么复制的大小不是原始大小的3倍？

这是因为其中一个值考虑了块大小，而另一个值没有考虑？

此命令上的Hadoop documentation并不是很有帮助，仅说明：

du返回以下格式的三列

size disk_space_consumed_with_all_replicas full_path_name