有人可以为hadoop中的2个不同群集提供最佳和最佳的数据比较解决方案吗?如果在一个集群上,传入的文件被拆分为10个块并由MapReduce存储在HDFS中,而在另一个集群上则存储在5个块中,并且在一天结束时我希望这两个集群中的数据存在差异。 感谢
答案 0 :(得分:0)
通过使用Hadoop FSCK命令,我们可以检索文件信息。
hadoop fsck / -files -blocks -locations
其他参数和命令在此处详述 http://hadoop.apache.org/docs/r2.7.0/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#fsck。