Scrapy只缓存图像

时间:2016-11-29 23:52:43

标签: python python-2.7 scrapy scrapy-pipeline

我以为我找到了一个使用RFC2616策略的解决方案,但在测试刮刀执行时间时,它似乎仍然是这样说的。所以我回到了默认政策。

我正在将我的image_urls指向

class DummyPolicy(object):

def should_cache_response(self, response, request):
    if image_url in item['image_urls']:
        return True
    else:
        return False


def is_cached_response_valid(self, cachedresponse, response, request):
    return True

现在我只需要缓存我发送到项目image_urls

的网址

根据我的理解,您可以通过指定

来覆盖策略
{{1}}

任何代码建议让这个工作?

1 个答案:

答案 0 :(得分:0)

我通过将meta dont_cache添加到某些产量请求中来创建解决方案:

yield scrapy.Request(url, self.parse, meta={'dont_cache': True})