r下载部分名称的url文件

时间:2016-01-20 05:20:30

标签: r file downloading

我在R编程。我需要从http:地址下载一组文件。文件的命名格式是指日期/时间段,但也包含无法识别的其他编号。例如,对于下面的文件,第一组数字指的是2014/10/24日期上午05:10,但第二批数字无法识别。网页上的所有文件都遵循此标准格式。

http://www.nemweb.com.au/REPORTS/CURRENT/MCCDispatch/PUBLIC_MCCDISPATCH_201410240510_0000000258279329.zip

我的问题是:如何仅使用部分名称信息下载文件?

例如,如果我想下载与6:30时间段相关的文件,我知道网址前缀如下,但不知道之后的数字:http://www.nemweb.com.au/REPORTS/CURRENT/MCCDispatch/PUBLIC_MCCDISPATCH_201410240630_??????????????.zip

1 个答案:

答案 0 :(得分:0)

你真的很幸运。因为你有一个目录列表。基本上,您必须下载链接列表然后grep它们。以下是您将如何做到这一点。

library(XML)
url <- "http://www.nemweb.com.au/REPORTS/CURRENT/MCCDispatch/"
parsed <- htmlParse(url)
links <- xpathSApply(parsed, "//@href")

现在您有一个可以搜索的网址列表,并选择合适的网址。

提示:grep("pattern",links)