Question

我是Apache Hbase的新手，我使用的是hbase-0.98.13，我创建了一个包含list family sample_family的表格示例。我已经将pig脚本的输出加载到hbase表。当我尝试根据列族中的一列来扫描表格时，它需要超过2分钟。

这是查询

scan 'sample', {FILTER=>"SingleColumnValueFilter('sample_family','id',=,'binary:1000')"}

任何人都可以告诉我如何在一两秒内完成这个过程吗？

是否有任何配置更改？任何人都可以帮助我吗？

Answer 1

在HBase中快速搜索没有灵丹妙药。示例中的扫描必须迭代表中的所有行，这就是为什么它需要在大型表上花费大量时间。并且HBase中没有辅助索引可以帮助改进特定列的搜索。

提高扫描性能的最有效方法是使用正确设计的行键。 HBase内部保持按行键排序的行，您可以指定扫描的开始行和结束行。因此，按照最常用的标准设置搜索行密钥至关重要。在您的问题中，您可以按列id进行搜索，其值为1000。您可以将此ID放入行键（但是，您必须确保避免区域热点）。