scrapy缓存只有图像

时间:2016-11-19 22:32:15

标签: python scrapy

我正在寻找一种方法来只缓存被抓取的图像。

我有HTTPCACHE_ENABLED,目前正在实施scrapy扩展:FilesystemCacheStorage

但现在它缓存了所有被删除的URL,而只有那些进入图像管道的URL应该被缓存。

另一个解决方案是一种缓存页面的方法,但仍然会检查自上次刮擦后刮取的vallue是否发生了变化并忽略了图像。

我已经尝试了HTTPCACHE_IGNORE_SCHEMES,但我不确定如何在此方案中指导我的url_list项目

1 个答案:

答案 0 :(得分:0)

因此,在对文档进行一些挖掘后,我发现默认情况下它使用DummyPolicy并将其更改为RFC2616,这正是我所寻找的。

Scrapy Documentation RFC2616