Question

我有许多 HTML文件存储在本地目录中。理想情况下，我想使用rvest来提取表节点，制作一些数据帧，然后将文件导出为.txt文件。我不确定如何将HTML文件正确导入到rvest可以处理的结构中。

到目前为止我的尝试：

# Load libraries
library(tm)
library(RCurl)
library(XML)
library(rvest)
library(stringr)

# Set file path
folder <- 'path to directory'
extension <- '.html'

# Read files to list 
htmls <- lapply(X=html,
                FUN=function(file){
                  .con <- file(description=paste(folder, file, sep='/'))
                  .html <- readLines(.con)
                  close(.con)
                  names(.html)  <- file
                  .html
                })

然后，痛苦地，使用正则表达式+ lapply / sapply循环遍历文件并提取表格。

有关更高效的工作流程和/或如何最好地优化rvest的建议？

rvest＆amp;从本地目录中读取HTML文件

0 个答案: