解析HTML表的多个文件并附加到R中的单个文件

时间:2011-05-23 19:55:52

标签: html parsing r loops

这是我试图执行的R中的一个小项目。我已经抓了几百个HTML页面。我可以在带有R的XML库中使用reaHTMLTable函数来读取我感兴趣的表。但是我在编写for循环以遍历目录时遇到问题,从每个文件中获取表并附加它们到一个CSV文件。

我已成功循环遍历文件并将每个表保存到单个txt文件(我觉得这至少是一个开始):

library(XML)     # htmlTreeParse
  parentpath <- "Z:/scraping"
  setwd(parentpath)
  filenames <- list.files()
      for (targetfile in filenames){
      setwd(parentpath)
      data = readHTMLTable(targetfile)
      outputfile <- paste(targetfile,'.txt', sep="")
write.table (data[6], file = outputfile , sep = "\t", quote=TRUE)

1 个答案:

答案 0 :(得分:2)

write.table中的append = TRUE选项不应该为你做诀窍吗?你可以通过查询来阅读它吗?write.table。