假设几天前,我抓取了整个网站(即完成了注入,生成,获取,解析,updatedb,invertlinks,索引,dedup,clean等)。 db.fetch.interval.default
为2592000
(30天)。今天,重要的页面已更改,我想立即重新抓取该页面(仅抓取该页面,而不抓取其他页面)。我怎样才能做到这一点?运行bin/crawl
不会再次获取该页面,因为还没有30天。
是否可以将已更改的特定页面通知Nutch,以使Nucth抓取这些特定页面?即Nutch是否有类似Webhook的东西,可以通知它立即重新抓取的页面?
(版本:处于分布式(“部署”)模式的Apache Nutch 1.15)