我正在使用nutch2.2和hbase 0.94以及gora 0.4,当我执行以下步骤时
1.nutch inject seed.txt
2.nutch generate -batchId 231
3.nutch fetch 231
4.nutch parse 231
5.nutch updatedb 231
我会得到某个特定页面的html内容([http://www.flipkart.com/mens-clothing/t-shirts?otracker=hp_nmenu_sub_men_0_T-Shirts]),但是当我执行第4步时
nutch parse 231
并看到我在hbase中创建的webpage
表格中有一个ol(outlink)
列系列,但它是空的
如果有人可以提供帮助,如果我得到所有的外联,对我来说都会有好处。
提前致谢