这是我试图执行的R中的一个小项目。我已经抓了几百个HTML页面。我可以在带有R的XML库中使用reaHTMLTable函数来读取我感兴趣的表。但是我在编写for循环以遍历目录时遇到问题,从每个文件中获取表并附加它们到一个CSV文件。
我已成功循环遍历文件并将每个表保存到单个txt文件(我觉得这至少是一个开始):
library(XML) # htmlTreeParse
parentpath <- "Z:/scraping"
setwd(parentpath)
filenames <- list.files()
for (targetfile in filenames){
setwd(parentpath)
data = readHTMLTable(targetfile)
outputfile <- paste(targetfile,'.txt', sep="")
write.table (data[6], file = outputfile , sep = "\t", quote=TRUE)
答案 0 :(得分:2)
write.table中的append = TRUE选项不应该为你做诀窍吗?你可以通过查询来阅读它吗?write.table。