Nutch 2解析和外链

时间:2012-08-13 10:35:02

标签: nutch

我注意到像tika这样的解析插件从内容中提取了外链,但是方法getParse / 2中传递的对象WebPage已经有2个包含outlinks和inlinks的数组。

在getParse和fetch之后提取的区别是什么。

感谢。

1 个答案:

答案 0 :(得分:0)

网页对象是根据nutch数据库中的信息创建的,在我的例子中是hsql。

在解析过程之后(在方法getParse返回之后)填充网页字段外链(以及其他一些外部链接)。