rvest&从本地目录中读取HTML文件

时间:2018-05-17 20:17:17

标签: html r regex rvest

我有许多 HTML文件存储在本地目录中。理想情况下,我想使用rvest来提取表节点,制作一些数据帧,然后将文件导出为.txt文件。我不确定如何将HTML文件正确导入到rvest可以处理的结构中。

到目前为止我的尝试:

# Load libraries
library(tm)
library(RCurl)
library(XML)
library(rvest)
library(stringr)

# Set file path
folder <- 'path to directory'
extension <- '.html'

# Read files to list 
htmls <- lapply(X=html,
                FUN=function(file){
                  .con <- file(description=paste(folder, file, sep='/'))
                  .html <- readLines(.con)
                  close(.con)
                  names(.html)  <- file
                  .html
                })

然后,痛苦地,使用正则表达式+ lapply / sapply循环遍历文件并提取表格。

有关更高效的工作流程和/或如何最好地优化rvest的建议?

0 个答案:

没有答案