Apache Nutch不会索引整个网站,只会索引子文件夹

时间:2011-02-14 12:15:08

标签: solr web-crawler nutch

Apache Nutch 1.2没有索引整个网站,只有子文件夹。我的索引页面提供了我网站的大多数区域/子文件夹中的链接。例如东西,学生,研究......但是nutch只抓取一个特定的文件夹 - 在这种情况下是“学生”。好像好像没有跟踪其他目录中的链接。

抓取-urlfilter.txt: + ^ HTTP://www5.my-domain.de/

URL文件夹中的

seed.txt: http://www5.my-domain.de/

启动nutch(使用windows / linux): nutch crawl“D:\ Program \ nutch-1.2 \ URLs”-dir“D:\ Program \ nutch-1.2 \ crawl”-depth 10 -topN 1000000

测试深度(5-23)和topN(100-1000000)的不同变体。在seed.txt中提供更多链接根本没有帮助,仍然没有关注注入页面中的链接。

有趣的是,抓取gnu.org非常有效。没有robots.txt或阻止我网站中使用的元标记。

有什么想法吗?

2 个答案:

答案 0 :(得分:2)

在尝试抓取索引页面中的所有链接时,我发现nutch仅限于100个大约1000个链接。阻止我的设置是:

db.max.outlinks.per.page

将此设置为2000允许nutch一次性索引所有这些。

答案 1 :(得分:1)

检查您是否有域内链接限制(nutch-site.xml中的属性为false)。另请查看其他属性,即每页最大内部链接数和http大小。有时他们在抓取过程中会产生错误的结果。

侨!