Question

如何从URL下载所有子文件夹的内容？

http://www.pixeltradr.com/dygraphs/

我尝试了download.file，但没有成功。

Answer 1

您可以使用HTTP请求获取页面源，并使用HTML / XML / XHTML解析器解析结构。循环浏览文件不会成为问题，因此您可以在获得结构后使用HTTP请求下载文件。

您没有提供任何代码，因此很难在此提供详细解答。

download.file(url, destfile, method, quiet = FALSE, mode = "w",
              cacheOK = TRUE,
              extra = getOption("download.file.extra"))

应该做的伎俩。（Download.File）

Answer 2

对于这个非常简单的情况，文件夹都在链接中，所以这将起作用

library(XML)
url <- "http://www.pixeltradr.com/dygraphs/"
doc <- htmlTreeParse(url,useInternalNodes=T)
href <- doc["//a/@href"]
folders <- data.frame(folder=unlist(href[grepl("/$",href)]))
folders
#      folder
# 1         /
# 2 rgbcolor/
# 3 strftime/
# 4    tests/

请注意，并非所有链接都是文件夹，有些只是文件。

从URL下载文件夹结构

2 个答案: