是否可以为我列出的每个网址或网址组使用不同的获取时间间隔?
如果没有,是否有我可以用来随时获取URL的命令(这样我可以使用cron作业或守护进程)?
答案 0 :(得分:2)
如果为种子URL(在种子文件中定义)设置了获取间隔,则可以使用注入步骤(https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/crawl/Injector.java#L69-L72)的元数据部分,这样您就可以控制种子链接的方式牵强。但是,发现的链接将有自己的调度,但也许您可以编写一些将nutch.fetchInterval
或nutch.fetchInterval.fixed
传播到种子文件的外链接的内容,以便同一主机上的所有链接都具有相同的提取间隔(或您自己的算法)。
说这个你也可以编写自己的自定义提取时间表(类似于Nutch捆绑的那些:mimetype / default / adaptative)来实现你的自定义逻辑。