如何比较大数据中的复制

时间:2016-10-27 19:43:28

标签: hadoop database-replication database-comparison bigdata

问题陈述 -

复制是行业中的常见任务,如果复制的数据库具有与原始数据库相同的数据,则它对验证复制同样重要。

示例 -

我有数据库D1,出于测试目的,我正在将数据库D1复制到数据库D2。

复制完成后,我想验证两个数据库是否相同,这可以使用行级别比较来完成,但对于数据长度可能是太字节的大型数据库来说,这是最糟糕的解决方案。

这里的专家可以为这些实时挑战提供解决方案或任何暗示吗?

1 个答案:

答案 0 :(得分:0)

  

这里的专家可以提供解决方案吗?

每个数据库以不同的方式解决问题。使用的方法取决于数据库的体系结构。例子:

  • Cassandra architecture + a process resembling replication
  • 很少"东西"使用Merkle Trees。例如,因为可以考虑复制" git clone"命令。创建一个新副本。 Git架构使用Markle树来连接它"内部文件"所以它是自我验证的解决方案。比特币区块链也是如此,
  • 当需要"实时复制" - 或更好 - 分布式计算,可以使用更高级的解决方案,如Paxos
  

(...)任何有关此类实时挑战的提示?

我不确定你是否想问一下挑战是什么,所以以防万一:由于数据量的原因,将一个数据库D1复制到D2很难比较,但最重要的是,因为D1是在现实世界的情景中,生活"数据库,不断变化。