标签: nutch
我注意到像tika这样的解析插件从内容中提取了外链,但是方法getParse / 2中传递的对象WebPage已经有2个包含outlinks和inlinks的数组。
在getParse和fetch之后提取的区别是什么。
感谢。
答案 0 :(得分:0)
网页对象是根据nutch数据库中的信息创建的,在我的例子中是hsql。
在解析过程之后(在方法getParse返回之后)填充网页字段外链(以及其他一些外部链接)。