R:如何缓存被抓取的网站(XML包)以供以后处理

时间:2015-07-27 23:01:56

标签: html xml r caching

我对webscrape网站有以下功能:

library(XML)

dl_url <- function(link_url) {
con <- url(link_url)
raw_data <- readLines(con)
close(con)
parsed_data <- htmlTreeParse(raw_data, useInternalNodes = TRUE)
parsed_data
}

当我使用时:

URLs <- lapply(list_urls, dl_url)

我得到了预期的解析网站列表,

str(URLs):

List of x
 $ :Classes 'HTMLInternalDocument', 'HTMLInternalDocument', 'XMLInternalDocument', 'XMLAbstractDocument' <externalptr> 
 $ :Classes 'HTMLInternalDocument', 'HTMLInternalDocument', 'XMLInternalDocument', 'XMLAbstractDocument' <externalptr>
....

但是,我无法存储数据。 dput(URL)只产生一个包含文本的1 kb文件。

在R中本地缓存(解析)html网站的最佳方法是什么?

非常感谢!

0 个答案:

没有答案