标签: nutch
我会在索引后删除段,然后nutch如何在重新抓取时获取页面的最后一次抓取时间?我需要存储它们以加速重新爬行吗?
答案 0 :(得分:0)
最后一次获取时间由crawldb维护,而不是段。从索引编制和分段开始,细分非常有用。寻找视角。存储在任何from中都不会影响爬行率。