正如在其他几个问题(here和here)中所讨论的,hadoop fs -du -s -h
命令(或等效的hdfs dfs -s -h
)显示两个值:
例如
19.9 M 59.6 M /path/folder/test.avro
因此,通常我们希望在复制因子为3的群集上,第二个数字是第一个数字的3倍。
但是最近检查正在运行的Spark作业时,第一个数字是246.9 K,第二个数字是3.4 G-大约大14,000倍!
这表明存在问题吗?为什么复制的大小不是原始大小的3倍?
这是因为其中一个值考虑了块大小,而另一个值没有考虑?
此命令上的Hadoop documentation并不是很有帮助,仅说明:
du返回以下格式的三列
size disk_space_consumed_with_all_replicas full_path_name