hbase表有多大可以实际增长?

时间:2014-01-31 11:11:31

标签: database database-design hbase real-time real-time-data

是否有任何理由将hbase表拆分为较小的实体,或者它是否可以永久增长(假设可用的磁盘空间)?

背景:

我们有实时数据(测量值),最高可达500,000 / s,主要包括时间戳,值,标志。如果我们将值分配给不同的表,那么它也意味着单独插入每个条目,这是一个性能杀手。如果我们批量插入它会更快。问题是,有一个具有极大尺寸的hbase表有什么缺点吗?

2 个答案:

答案 0 :(得分:0)

我没有看到手动拆分HBase表的重点,HBase自己做得非常好(称为HBase table regions

HBase已经被用来处理非常大的数据,所以我想相信这个限制仅取决于您的硬件(当然配置可能会影响性能,如自动主要压缩等......)

答案 1 :(得分:0)

通过在多个RegionServers之间分配负载,分裂表可能有很强的理由,即避免 RegionServer热点。 HBase凭借其性质,在一个地方依次存储行。具有相似键的行转到同一服务器(例如,时间序列数据)。这是为了促进更好的范围查询。但是,一旦您的数据变得太大(并且您的磁盘仍有空间),这就开始成为瓶颈。

在上述情况下,数据将继续转到相同的RegionServer,从而导致热点。因此,我们手动拆分表以在集群中统一分配数据。