我有许多 HTML文件存储在本地目录中。理想情况下,我想使用rvest来提取表节点,制作一些数据帧,然后将文件导出为.txt文件。我不确定如何将HTML文件正确导入到rvest可以处理的结构中。
到目前为止我的尝试:
# Load libraries
library(tm)
library(RCurl)
library(XML)
library(rvest)
library(stringr)
# Set file path
folder <- 'path to directory'
extension <- '.html'
# Read files to list
htmls <- lapply(X=html,
FUN=function(file){
.con <- file(description=paste(folder, file, sep='/'))
.html <- readLines(.con)
close(.con)
names(.html) <- file
.html
})
然后,痛苦地,使用正则表达式+ lapply / sapply循环遍历文件并提取表格。
有关更高效的工作流程和/或如何最好地优化rvest的建议?