我有以下hbase用例: 一个Hbase表,带有一个行键(由md5哈希组合构建)和两个列族。从逻辑上讲,该表存储了句子。该表有数亿条记录。
我有一个连接到此hbase表的webapp,需要根据某些条件随机导出句子。目前,只需使用rowkey即可查找所有这些条件。 通常,一个导出只包含几百个句子。重要的限制是,一旦某些部分被出口,它们就不应出现在任何后续出口中。
所以我的问题与此有关 - 我应该如何确保相同的段不会再次导出?
在每次导出后,我是否应该通过更新标记'标记'导出的细分?这样做的缺点是,当查看哪些段符合我的条件时,我将无法仅使用rowkey来识别这些记录,而是使用该标记。因此,我需要使用过滤器,我知道它们更慢。
有更好的方法吗?
答案 0 :(得分:0)
谁为你传递了行密钥?你能确定他发送独特的行键吗?
如果您在导出后不需要数据。为什么不从hbase表中删除该句子呢?
如果你对上述两个问题的答案都是“不”,那么除了在你的牌桌上留下一面旗帜之外别无选择。