我对webscrape网站有以下功能:
library(XML)
dl_url <- function(link_url) {
con <- url(link_url)
raw_data <- readLines(con)
close(con)
parsed_data <- htmlTreeParse(raw_data, useInternalNodes = TRUE)
parsed_data
}
当我使用时:
URLs <- lapply(list_urls, dl_url)
我得到了预期的解析网站列表,
str(URLs):
List of x
$ :Classes 'HTMLInternalDocument', 'HTMLInternalDocument', 'XMLInternalDocument', 'XMLAbstractDocument' <externalptr>
$ :Classes 'HTMLInternalDocument', 'HTMLInternalDocument', 'XMLInternalDocument', 'XMLAbstractDocument' <externalptr>
....
但是,我无法存储数据。 dput(URL)只产生一个包含文本的1 kb文件。
在R中本地缓存(解析)html网站的最佳方法是什么?
非常感谢!