我正在寻找一种方法来只缓存被抓取的图像。
我有HTTPCACHE_ENABLED,目前正在实施scrapy扩展:FilesystemCacheStorage
但现在它缓存了所有被删除的URL,而只有那些进入图像管道的URL应该被缓存。
另一个解决方案是一种缓存页面的方法,但仍然会检查自上次刮擦后刮取的vallue是否发生了变化并忽略了图像。
我已经尝试了HTTPCACHE_IGNORE_SCHEMES,但我不确定如何在此方案中指导我的url_list项目
答案 0 :(得分:0)
因此,在对文档进行一些挖掘后,我发现默认情况下它使用DummyPolicy并将其更改为RFC2616,这正是我所寻找的。 p>