应用错误收集

我们的团队正在将旧的CDH集群迁移到新的CDH集群中。

我的任务是比较存储在非kerberized集群（旧集群）中的数据和存储在kerberized集群（新集群）中的数据。

kerberized集群正在isilon上工作。非内核集群可以在普通linux上运行。

两个集群都有相同的python程序，可将文件放入集群以进行配置单元分析。

每个分区的文件大小分别约为45GB。

现在，我想通过使用md5等方法进行比较来证明每个python程序放置的数据是相同的。

当然，相同的程序输出相同的结果。但是我们对乱码的担心是，某些不可预测的数据丢失或文件大小相同，但值不同。

是否有一些方法可以比较如此大的数据？