使用lapply和html_nodes从多个html文件中提取变量

时间:2018-05-16 15:36:54

标签: r web-scraping lapply

我已经下载了几个html文件并将它们保存到一个文件夹中。现在我想读取文件并从每个文件中提取一些变量,然后将每个变量保存为列表。

但是,我一直收到错误消息:      UseMethod(“xml_find_all”)出错:       没有适用于'xml_find_all'的方法应用于类的对象     “xml_document”

我在stackoverflow上发现了这个问题,这似乎完全回答了我的问题:Extracting <tr> values from multiple html files

但是,提供的答案对我不起作用。你能帮助我找出我做错了什么吗?

我的代码如下:

html <- list.files("C:/Users/[NAME]/Desktop/data", full.names = T)

产生一个如下所示的文件链接列表:     “C:/用户/ [NAME] /Desktop/data/99_html-code.html”

mydata <- lapply(html, function(file) {
  read_html(file) %>% 
    html_nodes('h1') %>% 
    html_text()
 })

0 个答案:

没有答案