如何在apache nutch中获取每个URL的anchorText以编写新的scoringFilter插件?

时间:2016-08-29 12:06:35

标签: apache web-crawler anchor nutch scoring

我是Apache Nutch的新手,所以我花了很多时间来搜索它。 我需要获取Apache Nutch中每个网址的父网页的锚点。我读到了LinkDatum,LinkDB和Inlink,它们保存了关于每个URL的数据,但我并不确切知道如何使用这些类为新的ScoringFilter添加插件。 任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:2)

您将从外链获取锚文本。 outlink.getToUrl()将网址设为字符串,outlink.getAnchor()将提供锚文字。