基于具有数十亿行的计数器对hbase表进行排序

时间:2015-05-14 05:10:44

标签: hbase

我一直在研究爬虫。 url列表存储在hbase表中,带有计数参考计数。

我必须对表格进行排序,以便随时获得前1000个网址,以便将抓取工具集中在高价值网址上。

一种选择是使用带有过滤器和扫描hbase的pig脚本。 其他选项是维护另一个表,其中引用计数为关键,管理和存储头数增加。

请建议更好的方法。

1 个答案:

答案 0 :(得分:0)

正确的解决方案是让服务在表上启动定期map-reduce,以生成数据库中的前n个URL。

然后,您可以定期查询该服务,也可以让它更新包含当前热门网址的表格。