在两个Hbase集群之间同步数据

时间:2020-06-12 20:10:48

标签: hbase data-synchronization

在当前版本中,我们有两个独立的管道,每个数据中心一个,将数据写入单独的HBase集群。如果由于DC下降或流水线中的其他问题而导致写入集群之一的问题,集群之间的数据有时可能会不同步。

由于查询API随机选择两个可用的hbase群集之一作为其数据源,因此返回的数据可能不完整。一种选择是同时查询两个群集并合并数据集,但是这是资源密集型的,并且增加了总体延迟。

寻找使两个DC中的群集之间的数据定期同步的方法(理想情况下每天一次-群集在同步期间应继续发挥读/写功能)。我相信本机Hbase复制可与仅允许主服务器接受写入的主从模式一起使用,但是,我们不使用本机复制,因为我们正在向两个群集写入数据以实现弹性。

它的规模很大。每个群集的一些大概统计数据:

100 tables
60 region servers
600 regions per region server
200 billion new rows added per day

欣赏您的见解。

0 个答案:

没有答案