应用错误收集

防止将scrapy响应添加到缓存中

时间：2016-08-15 14:28:24

标签： scrapy

我正在抓取一个网站，该网站返回带有验证码和状态码200的网页，表明一切正常。这会导致页面被放入scrapy的缓存中。

我想稍后重新抓取这些网页。但如果它们在缓存中，它们将不会被重新抓取。

是否可以从httpcache中间件重载process_response函数或在reponse html中查找特定字符串并使用错误代码覆盖200代码？

什么是让scrapy不将某些响应放入缓存的最简单方法。

0 个答案:

没有答案