使用for循环使用rvest提取URL表单下载的html文件

时间:2019-06-22 11:48:50

标签: r rvest

我已经在一个文件夹中下载了258个.html文件,我想从中提取URL。每个文件包含大约15个我要提取的URL。

我有一行代码可以提取各个级别的链接,但是我不知道如何为所有258个文件编写循环。如果运行下面的循环,则R创建的字符向量仅为258。

#this works for a single file:
html_out <- read_html(files_list[1])

links_out <- html_nodes(html_out, xpath = "//*[@class='content-teaser__blocklink']") %>% html_attr("href")
links_out


#this doesn't work:
for (i in 1:length(files_list)) {
  html_out <- read_html(files_list[i])
  links_out[i] <- html_nodes(html_out, xpath = "//*[@class='content-teaser__blocklink']") %>% html_attr("href")

}

0 个答案:

没有答案