在R中抓取时,如何解决“ 10000毫秒后连接超时”?

时间:2019-02-12 22:53:01

标签: r web-scraping

我正在尝试抓取多个网站以提取网站标题,描述和关键字。可以抓取大约15个网站,但是当我尝试抓取更多网站时,R总是返回超时错误。

以下是错误消息的副本:

Error in open.connection(x, "rb") : 
  Timeout was reached: Connection timed out after 10000 milliseconds

我尝试使用options(timeout = 400000),但不起作用。

此外,我正在考虑将页面下载并read_html到R中,但是这种想法不可行,因为我有许多URL的列表。有什么建议吗?谢谢。

1 个答案:

答案 0 :(得分:0)

此问题的一个解决方案是在每次迭代后关闭浏览器。您可以尝试为每个网页打开一个新的浏览器,然后在抓取后将其关闭。可以循环处理所有需要报废的网站。