在R中阅读HTML时的性能问题

时间:2016-07-16 09:27:39

标签: r performance url

对于R中的项目,我从网站的搜索结果页面中抓取HTML代码。假设有100个搜索结果页面,范围从' p1'到' p100'。我的代码如下所示:

urlBase <- "http://www.somesite.com/searchresults/p"
collectURL <- list()

for(i in(1:100)){
  urlLoop <- paste(urlBase,as.character(i),sep='')
  htmlPlain <- readLines(urlLoop) # this line is taking a LOT of time
  collectURL[[i]] <- htmlParse(htmlPlain)
}

readLines函数需要花费大量时间。我尝试过其他功能,比如getURL(),但这并没有提高性能。

有什么方法可以加快R的速度吗?或者它是我的系统或URL /服务器端的其他因素导致性能下降?

0 个答案:

没有答案