Nutch错误"达到限制,跳过进一步的链接"

时间:2014-09-24 08:49:05

标签: apache web-crawler nutch

我的nutch版本是2.2.1并且它运行良好几天但现在它不会抓取任何任何给出跟随错误的任何内容。

达到限制,跳过de.ard.www的链接:http /
达到限制,跳过de.rbb-online.mediathek的链接:http /

达到限制,跳过de.rbb-online.www:http /

的链接

如何摆脱它?

1 个答案:

答案 0 :(得分:1)

这不是错误。实际上这意味着找到比默认设置(db.max.inlinks)更多的链接,只存储前N个链接,其余的将被丢弃。默认的db.max.inlinks设置为10000.

恕我直言,如果你想抓取更多的外链页面。您应该增加db.max.outlinks.per.page设置。在defualt它每页设置100。