在从RDBMS到Hbase的批量数据迁移期间,是否有可能经常发生区域拆分?如果它发生的次数更多,那肯定会影响写入和读取性能。
我知道预分裂可以避免这个区域在某种程度上分裂。
但是在我们的产品设计中,首先我们要在Hbase中单独编写新数据(可能需要6个月),一旦Hbase系统稳定读写新数据,就会开始将数据从RDBMS迁移到Hbase 。在这个阶段,我怀疑区域分割可能经常发生,因为数据太大而且它会影响读写性能。
我们的行键将按用户的顺序递增。对于不同的用户,它会以不同的方式开始。
请建议一些解决方案,以便在数据迁移期间保持服务器的性能。
答案 0 :(得分:0)
我支持不预先拆分hbase。该产品的主要功能之一是自动分片。拆分是一个非常快速的操作,但它会让你走上压缩的道路。我发现hbase中的堆压缩行为很差。在Splice Machine(开源)中,我们将压缩转移到Spark上,我们发现对hbase中的操作影响很小。