应用错误收集

我想频繁地抓取一个较大的网站，以发现最新内容并识别不再可用的项目。

我的完全爬网涉及图像下载。因此，如果我重新抓取，由于无法使用抓取缓存，因此图像将再次下载。据我了解，启用缓存只会从缓存中抓取页面。

[3,1,1,1,2,4]

所有更改均列在主页上。因此，每10m刮一次此页面，应该给我所有新链接，但是过期的链接又如何呢？如何对它们进行“ ping”操作以识别不再可用的物品（状态404）？也许是这样吗？

HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 3600

建议使用什么方法来使已抓取的数据集保持最新状态，并尽可能少地使用资源，是否已经将诸如此类的内容内置到scrapy中？