hadoop中的数据比较

时间:2015-07-03 05:18:18

标签: hadoop diff hdfs cluster-computing

有人可以为hadoop中的2个不同群集提供最佳和最佳的数据比较解决方案吗?如果在一个集群上,传入的文件被拆分为10个块并由MapReduce存储在HDFS中,而在另一个集群上则存储在5个块中,并且在一天结束时我希望这两个集群中的数据存在差异。 感谢

1 个答案:

答案 0 :(得分:0)

通过使用Hadoop FSCK命令,我们可以检索文件信息。

hadoop fsck / -files -blocks -locations

其他参数和命令在此处详述 http://hadoop.apache.org/docs/r2.7.0/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#fsck