Question

我正在尝试抓取多个网站以提取网站标题，描述和关键字。可以抓取大约15个网站，但是当我尝试抓取更多网站时，R总是返回超时错误。

以下是错误消息的副本：

Error in open.connection(x, "rb") : 
  Timeout was reached: Connection timed out after 10000 milliseconds

我尝试使用options(timeout = 400000)，但不起作用。

此外，我正在考虑将页面下载并read_html到R中，但是这种想法不可行，因为我有许多URL的列表。有什么建议吗？谢谢。

Answer 1

此问题的一个解决方案是在每次迭代后关闭浏览器。您可以尝试为每个网页打开一个新的浏览器，然后在抓取后将其关闭。可以循环处理所有需要报废的网站。