应用错误收集

我正在使用rvest从11,0000个网页中抓取数据。代码如下：-

RawData <- lapply(b,
                     function(url){
                       url %>% read_html() %>% 
                         html_nodes(".xg_headline-2l") %>% 
                         html_text()
                     })

“ b”是一个向量，其中包含11,000个网页的URL。此操作将花费近10个小时来抓取数据。有什么办法可以加快这个过程？同样很多次，如果Internet断开了一段时间，这将返回错误并显示10页数据。如何解决此错误？我正在寻找解决方案，以便如果互联网断开一段时间，它将暂停并在互联网启动时自动从那里开始。

使用Rvest抓取网页期间的异常处理？

0 个答案: