Question

有人可以为hadoop中的2个不同群集提供最佳和最佳的数据比较解决方案吗？如果在一个集群上，传入的文件被拆分为10个块并由MapReduce存储在HDFS中，而在另一个集群上则存储在5个块中，并且在一天结束时我希望这两个集群中的数据存在差异。感谢

Answer 1

通过使用Hadoop FSCK命令，我们可以检索文件信息。

hadoop fsck / -files -blocks -locations