比较集群之间的海量数据

时间:2018-08-21 03:11:51

标签: hadoop hive isilon

我们的团队正在将旧的CDH集群迁移到新的CDH集群中。

我的任务是比较存储在非kerberized集群(旧集群)中的数据和存储在kerberized集群(新集群)中的数据。

kerberized集群正在isilon上工作。 非内核集群可以在普通linux上运行。

两个集群都有相同的python程序,可将文件放入集群以进行配置单元分析。

每个分区的文件大小分别约为45GB。

现在,我想通过使用md5等方法进行比较来证明每个python程序放置的数据是相同的。

当然,相同的程序输出相同的结果。 但是我们对乱码的担心是,某些不可预测的数据丢失或文件大小相同,但值不同。

是否有一些方法可以比较如此大的数据?

0 个答案:

没有答案