Question

我正在使用apache nutch抓取一些网站，深达6级。我将链接内容转储到我当前的工作目录。链接内容包含以下格式的数据：

www.abc.com/help Inlink:
  fromUrl: www.abc.com anchor: Help
  fromUrl: www.xyz.com anchor: abc help

关于nutch的问题是，如果nutch能够生成上述数据，那么同一个lincontent文件应包含www.abc.com及其Inlink：information（类似有关www.xyz.com的信息））考虑到它有关于abc.com/help的信息，它将从www.abc.com和www.xyz.com进行分析。但是我在某些情况下没有发现fromUrls有他们的inlink信息。为什么会这样？我在这里错过了什么吗？

Answer 1

默认情况下，Nutch仅为不同的域添加linkdb的外链，以减少链接数据库的大小。要填充所有内联链接，db.ignore.internal.links和linkdb.ignore.external.links都必须设置为false中的nutch-default.xml或nutch-site.xml中的覆盖。

Apache Nutch：LinkConent inlink和url

1 个答案: