应用错误收集

时间：2017-11-15 20:25:33

标签： scrapy web-crawler

我正在更新（以前）正在运行的网站抓取工具。看来，我一直在抓取的网站引入了更严格的禁令规则，因此我开始使用Crawlera来试图规避这个问题。

我目前遇到的问题是目标网站使用非标准禁止方法对标准html页面执行302。 Crawlera没有将此视为禁令并立即停止爬行。有什么方法可以自定义Crawlera检测到的禁令，还是我需要研究另一种方法？

答案 0 :(得分：3)

我认为您可以要求他们将该规则插入到他们的系统中，并且根据您的计划，他们应该为您提供一种定制自己规则的方法（仍然，您可以询问他们的支持，我不完全确定）。

我想说这是你最好的选择，如果没有，我建议创建你自己的Downloader Middlewares，以便在重定向发生时重试。 crawlera获得禁令时的作用是重试n次（您也可以在标题上设置），因此您必须将重试设置为0和根据你得到的回应自己处理。