Question

Apache Nutch 1.2没有索引整个网站，只有子文件夹。我的索引页面提供了我网站的大多数区域/子文件夹中的链接。例如东西，学生，研究......但是nutch只抓取一个特定的文件夹 - 在这种情况下是“学生”。好像好像没有跟踪其他目录中的链接。

抓取-urlfilter.txt： + ^ HTTP：//www5.my-domain.de/

URL文件夹中的

启动nutch（使用windows / linux）： nutch crawl“D：\ Program \ nutch-1.2 \ URLs”-dir“D：\ Program \ nutch-1.2 \ crawl”-depth 10 -topN 1000000

测试深度（5-23）和topN（100-1000000）的不同变体。在seed.txt中提供更多链接根本没有帮助，仍然没有关注注入页面中的链接。

有趣的是，抓取gnu.org非常有效。没有robots.txt或阻止我网站中使用的元标记。

有什么想法吗？

Answer 1

在尝试抓取索引页面中的所有链接时，我发现nutch仅限于100个大约1000个链接。阻止我的设置是：

db.max.outlinks.per.page

将此设置为2000允许nutch一次性索引所有这些。

Answer 2

检查您是否有域内链接限制（nutch-site.xml中的属性为false）。另请查看其他属性，即每页最大内部链接数和http大小。有时他们在抓取过程中会产生错误的结果。

侨！