使用Rvest抓取网页期间的异常处理?

时间:2020-05-24 10:09:00

标签: r web-scraping rvest

我正在使用rvest从11,0000个网页中抓取数据。代码如下:-

RawData <- lapply(b,
                     function(url){
                       url %>% read_html() %>% 
                         html_nodes(".xg_headline-2l") %>% 
                         html_text()
                     })

“ b”是一个向量,其中包含11,000个网页的URL。此操作将花费近10个小时来抓取数据。有什么办法可以加快这个过程?同样很多次,如果Internet断开了一段时间,这将返回错误并显示10页数据。如何解决此错误?我正在寻找解决方案,以便如果互联网断开一段时间,它将暂停并在互联网启动时自动从那里开始。

0 个答案:

没有答案