我正在尝试抓取多个网站以提取网站标题,描述和关键字。可以抓取大约15个网站,但是当我尝试抓取更多网站时,R总是返回超时错误。
以下是错误消息的副本:
Error in open.connection(x, "rb") :
Timeout was reached: Connection timed out after 10000 milliseconds
我尝试使用options(timeout = 400000)
,但不起作用。
此外,我正在考虑将页面下载并read_html
到R中,但是这种想法不可行,因为我有许多URL的列表。有什么建议吗?谢谢。
答案 0 :(得分:0)
此问题的一个解决方案是在每次迭代后关闭浏览器。您可以尝试为每个网页打开一个新的浏览器,然后在抓取后将其关闭。可以循环处理所有需要报废的网站。