Question

以镶木地板格式存储的数据会导致HDFS上包含许多小文件的文件夹。

有没有办法查看这些文件是如何在HDFS中复制的（在哪些节点上）？

提前致谢。

Answer 1

如果我理解你的问题，你实际上想要跟踪哪个数据块在哪个数据节点上，而不是特定于apache-spark。

您可以使用 hadoop fsck 命令：

hadoop fsck <path> -files -blocks -locations

这将打印出指定路径中每个块的位置。