从URL下载文件夹结构

时间:2014-04-12 18:43:36

标签: r

如何从URL下载所有子文件夹的内容?

http://www.pixeltradr.com/dygraphs/

我尝试了download.file,但没有成功。

2 个答案:

答案 0 :(得分:0)

您可以使用HTTP请求获取页面源,并使用HTML / XML / XHTML解析器解析结构。循环浏览文件不会成为问题,因此您可以在获得结构后使用HTTP请求下载文件。

您没有提供任何代码,因此很难在此提供详细解答。

download.file(url, destfile, method, quiet = FALSE, mode = "w",
              cacheOK = TRUE,
              extra = getOption("download.file.extra"))

应该做的伎俩。 (Download.File

答案 1 :(得分:0)

对于这个非常简单的情况,文件夹都在链接中,所以这将起作用

library(XML)
url <- "http://www.pixeltradr.com/dygraphs/"
doc <- htmlTreeParse(url,useInternalNodes=T)
href <- doc["//a/@href"]
folders <- data.frame(folder=unlist(href[grepl("/$",href)]))
folders
#      folder
# 1         /
# 2 rgbcolor/
# 3 strftime/
# 4    tests/

请注意,并非所有链接都是文件夹,有些只是文件。