标签: apache-spark hdfs parquet
以镶木地板格式存储的数据会导致HDFS上包含许多小文件的文件夹。
有没有办法查看这些文件是如何在HDFS中复制的(在哪些节点上)?
提前致谢。
答案 0 :(得分:2)
如果我理解你的问题,你实际上想要跟踪哪个数据块在哪个数据节点上,而不是特定于apache-spark。
您可以使用 hadoop fsck 命令:
hadoop fsck <path> -files -blocks -locations
这将打印出指定路径中每个块的位置。