什么是hbase压缩文件大小

时间:2014-07-18 22:01:55

标签: java hadoop hive hbase apache-pig

我最近读过,在Hbase主要压缩之后,如果存储文件的大小变得大于hbase.hregion.max.filesize即256MB那么它再次溢出到2.所以任何人都可以解释压缩是在什么文件上完成的尺寸。 主要压缩后形成的商店文件将包含多少列族的数据?

1 个答案:

答案 0 :(得分:2)

顾名思义,

hbase.hregion.max.filesize指的是区域大小。区域本质上是hbase数据的分区(存储为hfiles)。 HBase会将您的数据存储到区域中,如果某个区域太大(由hbase.hregion.max.filesize定义太大),则会将该区域split分成两个区域。

通常,256MB的区域大小非常小,大多数用例需要更大的用例。确定确切的大小可能有点暗示,但这里有参考:http://hbase.apache.org/book/ops.capacity.html#ops.capacity.regions

您可以在htable描述符

中创建表时设置区域大小

每个区域都应包含您的表定义的所有列系列。为了进一步调整性能,您可以指定每列的块大小,这可能会影响扫描,获取和写入的性能。

您还可以查看此资源以获取配置提示: http://hbase.apache.org/book/important_configurations.html