Question

我有很多网站;每个月都有一些变化的内容和每天变化的内容。 nutch 1.3抓住了他们，因为我想用不同的计划抓取来重新抓取它们。我怎么能这样做？谢谢。

Answer 1

您可以编写一个shell脚本，您可以在其中指定用于运行crawler的命令名称，并在linux中使用cron命令来控制此脚本的执行。

http://www.thegeekstuff.com/2011/07/cron-every-5-minutes/

即使谷歌在一段时间后反复抓取整个网络。

Answer 2

您可以为种子文件中的每个条目指定获取间隔（两次连续爬网之间的时间），如下所示：

http://daily.com \t nutch.fetchInterval=86400
http://montly.com \t nutch.fetchInterval=2592000

如果您正在使用AdaptiveFetchSchedule上述条目，则只需设置起始间隔，并在每次重新抓取后，具体取决于页面是否更改，此间隔将增加或减少。在这种情况下，如果您总是需要固定的时间间隔，则可以在上面的行中使用nutch.fetchInterval.fixed代替nutch.fetchInterval。

如何在nutch 1.3中使用不同的计划爬行重新抓取不同的网站？

2 个答案: