是否可以从网页下载所有zip文件,而无需一次指定一个链接。
我想从http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html下载所有月帐户zip文件。
我使用的是Windows 8.1,R3.1.1。我在PC上没有wget
所以不能使用递归调用。
替代:
作为一种解决方法,我尝试下载网页文本本身。然后我想提取每个zip文件的名称,然后我可以在循环中传递给download.file
。但是,我正在努力提取这个名字。
pth <- "http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html"
temp <- tempfile()
download.file(pth,temp)
dat <- readLines(temp)
unlink(temp)
g <- dat[grepl("accounts_monthly", tolower(dat))]
g
包含带有文件名的字符串,以及其他字符。
g
[1] " <li><a href=\"Accounts_Monthly_Data-September2013.zip\">Accounts_Monthly_Data-September2013.zip (775Mb)</a></li>"
[2] " <li><a href=\"Accounts_Monthly_Data-October2013.zip\">Accounts_Monthly_Data-October2013.zip (622Mb)</a></li>"
我想提取文件名Accounts_Monthly_Data-September2013.zip
等等,但我的正则表达式非常糟糕(请亲自看看)
gsub(".*\\>(\\w+\\.zip)\\s+", "\\1", g)
数据
g <- c(" <li><a href=\"Accounts_Monthly_Data-September2013.zip\">Accounts_Monthly_Data-September2013.zip (775Mb)</a></li>",
" <li><a href=\"Accounts_Monthly_Data-October2013.zip\">Accounts_Monthly_Data-October2013.zip (622Mb)</a></li>"
)
答案 0 :(得分:5)
使用XML
包:
pth <- "http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html"
library(XML)
doc <- htmlParse(pth)
myfiles <- doc["//a[contains(text(),'Accounts_Monthly_Data')]", fun = xmlAttrs]
fileURLS <- file.path("http://download.companieshouse.gov.uk", myfiles)
mapply(download.file, url = fileURLS, destfile = myfiles)
"//a[contains(text(),'Accounts_Monthly_Data')]"
是XPATH表达式。它指示XML包选择包含文本“Accounts_Monthly_Data”的锚点(a
)的所有节点。结果是节点列表。然后fun = xmlAttrs
参数告诉XML包将这些节点传递给xmlAttrs
函数。此函数从xml节点中剥离属性。在这种情况下,锚只有一个属性href
,这正是我们要寻找的。 p>