我有很多网站;每个月都有一些变化的内容和每天变化的内容。 nutch 1.3抓住了他们,因为我想用不同的计划抓取来重新抓取它们。 我怎么能这样做? 谢谢。
答案 0 :(得分:2)
您可以编写一个shell脚本,您可以在其中指定用于运行crawler的命令名称,并在linux中使用cron命令来控制此脚本的执行。
http://www.thegeekstuff.com/2011/07/cron-every-5-minutes/
即使谷歌在一段时间后反复抓取整个网络。
答案 1 :(得分:1)
您可以为种子文件中的每个条目指定获取间隔(两次连续爬网之间的时间),如下所示:
http://daily.com \t nutch.fetchInterval=86400
http://montly.com \t nutch.fetchInterval=2592000
如果您正在使用AdaptiveFetchSchedule
上述条目,则只需设置起始间隔,并在每次重新抓取后,具体取决于页面是否更改,此间隔将增加或减少。在这种情况下,如果您总是需要固定的时间间隔,则可以在上面的行中使用nutch.fetchInterval.fixed
代替nutch.fetchInterval
。