如何在网络抓取时避免出现“ HTTP错误代码:429”?

时间:2019-05-23 19:57:00

标签: r rcrawler

我正在尝试从Google网上抓取信息,他们不喜欢它。该向量包含2487个Google网站,我要从其中一个获取第一个结果的文本。

我试图创建一个循环来减慢该过程,但我对此很不好。

b是包含所有网站的值。首先,我尝试过:

ContentScraper(b, CssPatterns = ".st") -> b

但是后来,我试图循环并降低速度,但是我不知道该怎么做。

b[i] <- ContentScraper(i, CssPatterns = ".st")}

从55号开始,我得到的只是错误。关于如何避免这种想法?谢谢。

1 个答案:

答案 0 :(得分:0)

将Sys.sleep(...)插入循环的开头