显示如何在HDFS上复制和存储镶木地板文件

时间:2016-08-31 08:06:45

标签: apache-spark hdfs parquet

以镶木地板格式存储的数据会导致HDFS上包含许多小文件的文件夹。

有没有办法查看这些文件是如何在HDFS中复制的(在哪些节点上)?

提前致谢。

1 个答案:

答案 0 :(得分:2)

如果我理解你的问题,你实际上想要跟踪哪个数据块在哪个数据节点上,而不是特定于apache-spark。

您可以使用 hadoop fsck 命令:

hadoop fsck <path> -files -blocks -locations    

这将打印出指定路径中每个块的位置。