如何使用nutch的解析器作业获取页面上特定页面上所有的outlinks

时间:2014-09-01 13:44:59

标签: hbase nutch gora

我正在使用nutch2.2和hbase 0.94以及gora 0.4,当我执行以下步骤时

1.nutch inject seed.txt
2.nutch generate -batchId 231
3.nutch fetch 231
4.nutch parse 231
5.nutch updatedb 231

我会得到某个特定页面的html内容([http://www.flipkart.com/mens-clothing/t-shirts?otracker=hp_nmenu_sub_men_0_T-Shirts]),但是当我执行第4步时

nutch parse 231

并看到我在hbase中创建的webpage表格中有一个ol(outlink)列系列,但它是空的

如果有人可以提供帮助,如果我得到所有的外联,对我来说都会有好处。

提前致谢

0 个答案:

没有答案