标签: hbase
我一直在研究爬虫。 url列表存储在hbase表中,带有计数参考计数。
我必须对表格进行排序,以便随时获得前1000个网址,以便将抓取工具集中在高价值网址上。
一种选择是使用带有过滤器和扫描hbase的pig脚本。 其他选项是维护另一个表,其中引用计数为关键,管理和存储头数增加。
请建议更好的方法。
答案 0 :(得分:0)
正确的解决方案是让服务在表上启动定期map-reduce,以生成数据库中的前n个URL。
然后,您可以定期查询该服务,也可以让它更新包含当前热门网址的表格。