Nutch Recrawl - 存储片段是否必要

时间:2012-02-10 09:47:22

标签: nutch

我会在索引后删除段,然后nutch如何在重新抓取时获取页面的最后一次抓取时间?我需要存储它们以加速重新爬行吗?

1 个答案:

答案 0 :(得分:0)

最后一次获取时间由crawldb维护,而不是段。从索引编制和分段开始,细分非常有用。寻找视角。存储在任何from中都不会影响爬行率。