定制Crawlera禁止Scrapy规则

时间:2017-11-15 20:25:33

标签: scrapy web-crawler

我正在更新(以前)正在运行的网站抓取工具。看来,我一直在抓取的网站引入了更严格的禁令规则,因此我开始使用Crawlera来试图规避这个问题。

我目前遇到的问题是目标网站使用非标准禁止方法对标准html页面执行302。 Crawlera没有将此视为禁令并立即停止爬行。有什么方法可以自定义Crawlera检测到的禁令,还是我需要研究另一种方法?

1 个答案:

答案 0 :(得分:3)

我认为您可以要求他们将该规则插入到他们的系统中,并且根据您的计划,他们应该为您提供一种定制自己规则的方法(仍然,您可以询问他们的支持,我不完全确定)。

我想说这是你最好的选择,如果没有,我建议创建你自己的Downloader Middlewares,以便在重定向发生时重试。 crawlera获得禁令时的作用是重试n次(您也可以在标题上设置),因此您必须将重试设置为0和根据你得到的回应自己处理。