在我的HBase表中,每一行可能具有与其他行不同的列。例如;
ROW COLUMN
1-1040 cf:s1
1-1040 cf:s2
1-1043 cf:s2
2-1040 cf:s5
2-1045 cf:s99
3-1040 cf:s75
3-1042 cf:s135
如上所示,每一行与其他行具有不同的列。所以,当我像这样运行扫描查询时;
扫描'tb',{COLUMNS =>'cf:s2',STARTROW =>'1-1040',ENDROW =>'1-1044'}
我想使用上述查询获取 cf:s2 值。但是,由于每一行具有不同的列,是否会发生性能问题?
另一个选项;
ROW COLUMN
1-1040-s1 cf:value
1-1040-s2 cf:value
1-1043-s2 cf:value
2-1040-s5 cf:value
2-1045-s99 cf:value
3-1040-s75 cf:value
3-1042-s135 cf:value
在此选项中,当我想获取1-1040和1-1044之间的 s2 值时,我正在为此运行查询;
扫描'tb',{STARTROW =>'1-1040s2',ENDROW =>'1-1044',FILTER =>“ RowFilter(=,'substring:s2')”}
当我想获取 s2 值时,哪个选项的读取性能更好?
答案 0 :(得分:2)
HBase将给定列族的所有记录存储在同一文件中,因此即使您应用过滤器,扫描也必须遍历所有键值对。您建议的两种存储数据的方式都是如此。
为使此特定扫描达到最佳性能,应考虑将s2
数据存储在其他列族中。在后台,HBase将通过以下方式存储您的数据:
一个文件:
1-1040 cf1:s1
2-1040 cf1:s5
2-1045 cf1:s99
3-1040 cf1:s75
3-1042 cf1:s135
另一个文件:
1-1040 cf2:s2
1-1043 cf2:s2
然后,您可以仅对cf2
进行扫描,HBase将只读取包含s2
的数据,从而使操作更快。
scan 'tb', {COLUMNS => 'cf2', STARTROW=>'1-1040s2', ENDROW=>'1-1044'}
注意事项:
s5
,s75
等运行此查询,则不应实施此方法。在这种情况下,您的组合行键选项更好,因为HBase只需要查看行键,而无需查看列限定符。s2
关联的值的最快方法,但对于其他查询可能不是最快的方法。