应用错误收集

时间：2012-10-01 14:11:52

标签： hbase nutch

我正在使用与Hbase 0.92.1集成的nutch 2.1。当我从网站获取数据时，所有数据都只写在Hbase中的一个表中，这是我的问题。表的名称是“网页”。

是否可以为种子文件中的每个不同的URL创建一个新表？

答案 0 :(得分：0)

我找到了它。在nutch 2.0中，所谓的crawlId是表名的前缀：）。

答案 1 :(得分：0)

我正在寻找类似的功能，但未能理解如何在没有一些黑客攻击的情况下使用crawlId。

暂时不清楚的是，inject可以使用-crawlId参数（例如，nutch注入seed.txt -crawlId firstSeed）...这将在HBase中为整个.txt文件创建一个名为firstSeed_webpage的单独表。

对于上面的用例，编写一个bash脚本可以相当简单，该脚本可以逐行读取.txt并为每个URL提供一个新的crawlId。

!!!!! （注意：对于与该爬网相关的所有命令，您应该包含-crawlId标志以表示您打算使用哪个表。）