标签: scrapy
我正在抓取一个网站,该网站返回带有验证码和状态码200的网页,表明一切正常。这会导致页面被放入scrapy的缓存中。
我想稍后重新抓取这些网页。但如果它们在缓存中,它们将不会被重新抓取。
是否可以从httpcache中间件重载process_response函数或在reponse html中查找特定字符串并使用错误代码覆盖200代码?
什么是让scrapy不将某些响应放入缓存的最简单方法。