我在多个地方读过哈希单调增加的行键有助于通过分发数据来防止区域热点
https://stackoverflow.com/a/17969852/4495849
http://hbase.apache.org/book.html#rowkey.design
我担心的是,这会增加太多的搜索,从而破坏了hdfs的好处。是否存在保持rowkeys不受影响会产生更好性能的情况。更好分配的好处是否超过增加的寻道时间?
我的rowkey是时间戳和id的组合。每个id大约有20,000个ID和525600(一年的读数)。请求适用于许多小型或大型时间范围内的小型和大型ID组
答案 0 :(得分:1)
有些时候,未使用的密钥会带来好处。 当您需要读取某些范围内的某些重要数据时,例如来自&x; xxx'的所有字符串到了' zzz'。在这种情况下,未使用的密钥将为您带来可观的好处。您可以将scan与start和sot行键一起使用。 HBase只读取这些数据。如果是散列键,则需要扫描孔表并根据此范围标准过滤值。