标签: apache web-crawler anchor nutch scoring
我是Apache Nutch的新手,所以我花了很多时间来搜索它。 我需要获取Apache Nutch中每个网址的父网页的锚点。我读到了LinkDatum,LinkDB和Inlink,它们保存了关于每个URL的数据,但我并不确切知道如何使用这些类为新的ScoringFilter添加插件。 任何帮助将不胜感激。
答案 0 :(得分:2)
您将从外链获取锚文本。 outlink.getToUrl()将网址设为字符串,outlink.getAnchor()将提供锚文字。
outlink.getToUrl()
outlink.getAnchor()