我正在使用apache nutch抓取一些网站,深达6级。我将链接内容转储到我当前的工作目录。链接内容包含以下格式的数据:
www.abc.com/help Inlink:
fromUrl: www.abc.com anchor: Help
fromUrl: www.xyz.com anchor: abc help
关于nutch的问题是,如果nutch能够生成上述数据,那么同一个lincontent文件应包含www.abc.com及其Inlink:information(类似有关www.xyz.com的信息) )考虑到它有关于abc.com/help的信息,它将从www.abc.com和www.xyz.com进行分析。但是我在某些情况下没有发现fromUrls有他们的inlink信息。为什么会这样?我在这里错过了什么吗?
答案 0 :(得分:1)
默认情况下,Nutch仅为不同的域添加linkdb
的外链,以减少链接数据库的大小。要填充所有内联链接,db.ignore.internal.links
和linkdb.ignore.external.links
都必须设置为false
中的nutch-default.xml
或nutch-site.xml
中的覆盖。