我在R编程。我需要从http:地址下载一组文件。文件的命名格式是指日期/时间段,但也包含无法识别的其他编号。例如,对于下面的文件,第一组数字指的是2014/10/24日期上午05:10,但第二批数字无法识别。网页上的所有文件都遵循此标准格式。
我的问题是:如何仅使用部分名称信息下载文件?
例如,如果我想下载与6:30时间段相关的文件,我知道网址前缀如下,但不知道之后的数字:http://www.nemweb.com.au/REPORTS/CURRENT/MCCDispatch/PUBLIC_MCCDISPATCH_201410240630_??????????????.zip
答案 0 :(得分:0)
你真的很幸运。因为你有一个目录列表。基本上,您必须下载链接列表然后grep它们。以下是您将如何做到这一点。
library(XML)
url <- "http://www.nemweb.com.au/REPORTS/CURRENT/MCCDispatch/"
parsed <- htmlParse(url)
links <- xpathSApply(parsed, "//@href")
现在您有一个可以搜索的网址列表,并选择合适的网址。
提示:grep("pattern",links)