在hbase中为我的种子文件中的每个不同的URL创建不同的表在nutch中?

时间:2012-10-01 14:11:52

标签: hbase nutch

我正在使用与Hbase 0.92.1集成的nutch 2.1。当我从网站获取数据时,所有数据都只写在Hbase中的一个表中,这是我的问题。表的名称是“网页”。

是否可以为种子文件中的每个不同的URL创建一个新表?

2 个答案:

答案 0 :(得分:0)

我找到了它。在nutch 2.0中,所谓的crawlId是表名的前缀:)。

答案 1 :(得分:0)

我正在寻找类似的功能,但未能理解如何在没有一些黑客攻击的情况下使用crawlId。

暂时不清楚的是,inject可以使用-crawlId参数(例如,nutch注入seed.txt -crawlId firstSeed)...这将在HBase中为整个.txt文件创建一个名为firstSeed_webpage的单独表。

对于上面的用例,编写一个bash脚本可以相当简单,该脚本可以逐行读取.txt并为每个URL提供一个新的crawlId。

!!!!! (注意:对于与该爬网相关的所有命令,您应该包含-crawlId标志以表示您打算使用哪个表。)