Apache Nutch:LinkConent inlink和url

时间:2014-04-22 01:35:11

标签: apache web-crawler nutch pagerank

我正在使用apache nutch抓取一些网站,深达6级。我将链接内容转储到我当前的工作目录。链接内容包含以下格式的数据:

www.abc.com/help Inlink:
  fromUrl: www.abc.com anchor: Help
  fromUrl: www.xyz.com anchor: abc help

关于nutch的问题是,如果nutch能够生成上述数据,那么同一个lincontent文件应包含www.abc.com及其Inlink:information(类似有关www.xyz.com的信息) )考虑到它有关于abc.com/help的信息,它将从www.abc.com和www.xyz.com进行分析。但是我在某些情况下没有发现fromUrls有他们的inlink信息。为什么会这样?我在这里错过了什么吗?

1 个答案:

答案 0 :(得分:1)

默认情况下,Nutch仅为不同的域添加linkdb的外链,以减少链接数据库的大小。要填充所有内联链接,db.ignore.internal.linkslinkdb.ignore.external.links都必须设置为false中的nutch-default.xmlnutch-site.xml中的覆盖。