我们的Cassandra集群在AWS EC2上运行,环中有4个节点。我们希望将整个环境迁移到Azure。 我们使用该流程使用现有数据中心(AWS EC2)添加新数据中心(Azure),使用的策略是NetworkTopology并使用GossipingPropertyFileSnitch。
添加新数据中心后,我们在新数据中心的所有节点上运行以下命令。 #nodetool rebuild - "数据中心名称"
现有数据中心的所有节点上的数据总共约为3 TB。 重建新数据中心花了大约6-7天,一旦system.log说 - 所有会话都完成了。我们在新数据中心的每个节点上检查了db大小,发现所有4个节点的大小都减小了(大约75gb,即总共300gb),而不是现有的数据中心。
有人可以告诉我这是否是检查新数据中心数据是否与现有数据中心相同的正确方法。
答案 0 :(得分:1)
数据大小不是检查数据不匹配的正确方法。
尺寸可能因各种原因而有所不同,其中一些我能想到:
我的建议是先查看每个表中的行数。确保两个DC的所有设置都相同。然后编写一个spark作业来检查一致性(通过校验和或单个字段,校验和可能更快)。确保火花作业以最佳方式运行而不需要改变数据,它应该能够在几小时内运行并为您提供结果。
注意:如果不了解更多细节,这是我能做的最好的事情。