爬网,Cookie,会话,速率限制

时间:2019-09-09 12:47:34

标签: scrapy scrapinghub crawlera

我正在尝试使用scrapinghub来爬行严重限制请求率的网站。

如果我原样运行蜘蛛,我很快就会得到429。

如果我根据standard instructions启用了crawlera,则蜘蛛程序将不再起作用。

如果我设置了headers = {"X-Crawlera-Cookies": "disable"},则Spider再次起作用,但是我得到429s,所以我认为限制器在cookie上也起作用。

那么这里有什么方法呢?

1 个答案:

答案 0 :(得分:0)

您可以尝试使用RandomUserAgent,如果您不想编写自己的实现,则可以尝试使用以下方法:

https://github.com/cnu/scrapy-random-useragent