应用错误收集

爬网，Cookie，会话，速率限制

时间：2019-09-09 12:47:34

标签： scrapy scrapinghub crawlera

我正在尝试使用scrapinghub来爬行严重限制请求率的网站。

如果我原样运行蜘蛛，我很快就会得到429。

如果我根据standard instructions启用了crawlera，则蜘蛛程序将不再起作用。

如果我设置了headers = {"X-Crawlera-Cookies": "disable"}，则Spider再次起作用，但是我得到429s，所以我认为限制器在cookie上也起作用。

那么这里有什么方法呢？

1 个答案:

答案 0 :(得分：0)

您可以尝试使用RandomUserAgent，如果您不想编写自己的实现，则可以尝试使用以下方法：

https://github.com/cnu/scrapy-random-useragent