Apache Nutch 1.2没有索引整个网站,只有子文件夹。我的索引页面提供了我网站的大多数区域/子文件夹中的链接。例如东西,学生,研究......但是nutch只抓取一个特定的文件夹 - 在这种情况下是“学生”。好像好像没有跟踪其他目录中的链接。
抓取-urlfilter.txt: + ^ HTTP://www5.my-domain.de/
URL文件夹中的seed.txt: http://www5.my-domain.de/
启动nutch(使用windows / linux): nutch crawl“D:\ Program \ nutch-1.2 \ URLs”-dir“D:\ Program \ nutch-1.2 \ crawl”-depth 10 -topN 1000000
测试深度(5-23)和topN(100-1000000)的不同变体。在seed.txt中提供更多链接根本没有帮助,仍然没有关注注入页面中的链接。
有趣的是,抓取gnu.org非常有效。没有robots.txt或阻止我网站中使用的元标记。
有什么想法吗?
答案 0 :(得分:2)
在尝试抓取索引页面中的所有链接时,我发现nutch仅限于100个大约1000个链接。阻止我的设置是:
db.max.outlinks.per.page
将此设置为2000允许nutch一次性索引所有这些。
答案 1 :(得分:1)
检查您是否有域内链接限制(nutch-site.xml中的属性为false)。另请查看其他属性,即每页最大内部链接数和http大小。有时他们在抓取过程中会产生错误的结果。
侨!