Question

我在R编程。我需要从http：地址下载一组文件。文件的命名格式是指日期/时间段，但也包含无法识别的其他编号。例如，对于下面的文件，第一组数字指的是2014/10/24日期上午05:10，但第二批数字无法识别。网页上的所有文件都遵循此标准格式。

我的问题是：如何仅使用部分名称信息下载文件？

例如，如果我想下载与6:30时间段相关的文件，我知道网址前缀如下，但不知道之后的数字：http://www.nemweb.com.au/REPORTS/CURRENT/MCCDispatch/PUBLIC_MCCDISPATCH_201410240630_??????????????.zip

Answer 1

你真的很幸运。因为你有一个目录列表。基本上，您必须下载链接列表然后grep它们。以下是您将如何做到这一点。

library(XML)
url <- "http://www.nemweb.com.au/REPORTS/CURRENT/MCCDispatch/"
parsed <- htmlParse(url)
links <- xpathSApply(parsed, "//@href")

现在您有一个可以搜索的网址列表，并选择合适的网址。

提示：grep("pattern",links)