标签: nutch
nutch-default.xml建议有一种方法可以在第一次抓取时保存重定向目标,并通过将http.redirect.max设置为0来抓取下次抓取时的抓取方式。
http.redirect.max
第一次抓取成功完成,我们可以看到存储的细分中的重定向响应。然后我们尝试更新爬网数据库以将重定向目标添加到下一个获取列表,但是我们无法将它们包括在内 - 获取列表似乎基本上是空的,只有几个网络,nutch无法抓取第一次爬行。
在解析/更新/生成过程中是否需要提供参数/配置?
答案 0 :(得分:1)
必须增加topN parameter,以便在获取列表中获取所有网址。第二轮中网址的选择是基于网址的得分......我认为它无法修改。