我正在尝试使用scrapinghub来爬行严重限制请求率的网站。
如果我原样运行蜘蛛,我很快就会得到429。
如果我根据standard instructions启用了crawlera,则蜘蛛程序将不再起作用。
如果我设置了headers = {"X-Crawlera-Cookies": "disable"}
,则Spider再次起作用,但是我得到429s,所以我认为限制器在cookie上也起作用。
那么这里有什么方法呢?
答案 0 :(得分:0)
您可以尝试使用RandomUserAgent,如果您不想编写自己的实现,则可以尝试使用以下方法: