我们的一个HBase表已经发展到1000多个地区。我们通过将表的MAX_FILESIZE属性从默认的256MB更改为10GB来减少此限制。现在我们已经到了70个地区。
我想知道这种改变的副作用是什么?换句话说,增加表的MAX_FILESIZE有什么缺点?如果我们将MAX_FILESIZE增加到100GB甚至1TB会怎么样?
我最初的怀疑是压缩会大大减慢,但我想确定。你们觉得怎么样?
谢谢!
答案 0 :(得分:1)
检查第2.5.2.6节here,了解每个区域服务器建议的最佳区域大小和区域数。
答案 1 :(得分:1)
如果您使用M / R处理数据,一个重要问题是您可以从群集中获得并行数量。正如Praveen指出的那样,HBase book就是这样说的:“另一个问题是地区数量对地图缩减工作的影响。每个RS保留5个区域对于工作来说太低了,而1000个会产生太多地图。“
他们对区域数量的经验法则基于对群集有多大的假设 - 如果您实际拥有1000个地图位置,那么1000个区域就可以了。我的经验法则是沿着比地图槽数量多2-3倍的区域。取决于他们提出的所有其他要点。