如何在nutch 1.3中使用不同的计划爬行重新抓取不同的网站?

时间:2011-10-19 07:54:11

标签: nutch web-crawler

我有很多网站;每个月都有一些变化的内容和每天变化的内容。 nutch 1.3抓住了他们,因为我想用不同的计划抓取来重新抓取它们。 我怎么能这样做? 谢谢。

2 个答案:

答案 0 :(得分:2)

您可以编写一个shell脚本,您可以在其中指定用于运行crawler的命令名称,并在linux中使用cron命令来控制此脚本的执行。

http://www.thegeekstuff.com/2011/07/cron-every-5-minutes/

即使谷歌在一段时间后反复抓取整个网络。

答案 1 :(得分:1)

您可以为种子文件中的每个条目指定获取间隔(两次连续爬网之间的时间),如下所示:

http://daily.com \t nutch.fetchInterval=86400
http://montly.com \t nutch.fetchInterval=2592000

如果您正在使用AdaptiveFetchSchedule上述条目,则只需设置起始间隔,并在每次重新抓取后,具体取决于页面是否更改,此间隔将增加或减少。在这种情况下,如果您总是需要固定的时间间隔,则可以在上面的行中使用nutch.fetchInterval.fixed代替nutch.fetchInterval