在Apache Nutch 2.3.1中选择的外部URL

时间:2017-08-16 07:24:07

标签: web-crawler nutch

我有特定主题的小种子。我希望Nutch应该只遵循那些预期相关主题的外部链接(它可能只是一种启发式方法)。我该怎么做。如果我必须编写一些插件,那么应该是什么扩展点。有没有可用的例子。

2 个答案:

答案 0 :(得分:0)

对于您的特定情况,您可以尝试parsefilter-naivebayes插件,您可以在NUTCH-2038中找到有关它的更多信息。请记住,这是以某种方式提供的一般解决方案,以某种方式与您的用例对齐。当然,现实可能会有所不同。

然而,如果您能够提出一个良好的启发式方法来检测链接何时是一个很好的候选者,那么您可以在HtmlParseFilter中实现它,并且您可以选择返回哪些外链。请记住,在此阶段,您可能有关可能的外链的唯一信息是URL。

答案 1 :(得分:0)

设置Nutch配置nutch-default.xml

<property>
  <name>db.ignore.internal.links</name>
  <value>true</value>
  <description>If true, when adding new links to a page, links from
  the same host are ignored.  This is an effective way to limit the
  size of the link database, keeping only the highest quality
  links.
  </description>
</property>

<property>
  <name>db.ignore.external.links</name>
  <value>false</value>
  <description>If true, outlinks leading from a page to external hosts
  will be ignored. This is an effective way to limit the crawl to include
  only initially injected hosts, without creating complex URLFilters.
  </description>
</property>