Question

这是我试图执行的R中的一个小项目。我已经抓了几百个HTML页面。我可以在带有R的XML库中使用reaHTMLTable函数来读取我感兴趣的表。但是我在编写for循环以遍历目录时遇到问题，从每个文件中获取表并附加它们到一个CSV文件。

我已成功循环遍历文件并将每个表保存到单个txt文件（我觉得这至少是一个开始）：

library(XML)     # htmlTreeParse
  parentpath <- "Z:/scraping"
  setwd(parentpath)
  filenames <- list.files()
      for (targetfile in filenames){
      setwd(parentpath)
      data = readHTMLTable(targetfile)
      outputfile <- paste(targetfile,'.txt', sep="")
write.table (data[6], file = outputfile , sep = "\t", quote=TRUE)

Answer 1

write.table中的append = TRUE选项不应该为你做诀窍吗？你可以通过查询来阅读它吗？write.table。

解析HTML表的多个文件并附加到R中的单个文件

1 个答案: