应用错误收集

scrapy缓存只有图像

时间：2016-11-19 22:32:15

标签： python scrapy

我正在寻找一种方法来只缓存被抓取的图像。

我有HTTPCACHE_ENABLED，目前正在实施scrapy扩展：FilesystemCacheStorage

但现在它缓存了所有被删除的URL，而只有那些进入图像管道的URL应该被缓存。

另一个解决方案是一种缓存页面的方法，但仍然会检查自上次刮擦后刮取的vallue是否发生了变化并忽略了图像。

我已经尝试了HTTPCACHE_IGNORE_SCHEMES，但我不确定如何在此方案中指导我的url_list项目

1 个答案:

答案 0 :(得分：0)

因此，在对文档进行一些挖掘后，我发现默认情况下它使用DummyPolicy并将其更改为RFC2616，这正是我所寻找的。

Scrapy Documentation RFC2616