我正在使用rvest从11,0000个网页中抓取数据。代码如下:-
RawData <- lapply(b,
function(url){
url %>% read_html() %>%
html_nodes(".xg_headline-2l") %>%
html_text()
})
“ b”是一个向量,其中包含11,000个网页的URL。此操作将花费近10个小时来抓取数据。有什么办法可以加快这个过程?同样很多次,如果Internet断开了一段时间,这将返回错误并显示10页数据。如何解决此错误?我正在寻找解决方案,以便如果互联网断开一段时间,它将暂停并在互联网启动时自动从那里开始。