如何提高Hbase的扫描速度

时间:2015-11-25 09:00:35

标签: apache hadoop hbase

我是Apache Hbase的新手,我使用的是hbase-0.98.13,我创建了一个包含list family sample_family的表格示例。我已经将pig脚本的输出加载到hbase表。当我尝试根据列族中的一列来扫描表格时,它需要超过2分钟。

这是查询

scan 'sample', {FILTER=>"SingleColumnValueFilter('sample_family','id',=,'binary:1000')"}

任何人都可以告诉我如何在一两秒内完成这个过程吗?

是否有任何配置更改?任何人都可以帮助我吗?

1 个答案:

答案 0 :(得分:2)

在HBase中快速搜索没有灵丹妙药。 示例中的扫描必须迭代表中的所有行,这就是为什么它需要在大型表上花费大量时间。并且HBase中没有辅助索引可以帮助改进特定列的搜索。

提高扫描性能的最有效方法是使用正确设计的行键。 HBase内部保持按行键排序的行,您可以指定扫描的开始行和结束行。因此,按照最常用的标准设置搜索行密钥至关重要。在您的问题中,您可以按列id进行搜索,其值为1000。您可以将此ID放入行键(但是,您必须确保避免区域热点)。