我正在使用与Hbase 0.92.1集成的nutch 2.1。当我从网站获取数据时,所有数据都只写在Hbase中的一个表中,这是我的问题。表的名称是“网页”。
是否可以为种子文件中的每个不同的URL创建一个新表?
答案 0 :(得分:0)
我找到了它。在nutch 2.0中,所谓的crawlId是表名的前缀:)。
答案 1 :(得分:0)
我正在寻找类似的功能,但未能理解如何在没有一些黑客攻击的情况下使用crawlId。
暂时不清楚的是,inject可以使用-crawlId参数(例如,nutch注入seed.txt -crawlId firstSeed)...这将在HBase中为整个.txt文件创建一个名为firstSeed_webpage的单独表。
对于上面的用例,编写一个bash脚本可以相当简单,该脚本可以逐行读取.txt并为每个URL提供一个新的crawlId。
!!!!! (注意:对于与该爬网相关的所有命令,您应该包含-crawlId标志以表示您打算使用哪个表。)