解析存储在zip文件中的多个XBRL文件

时间:2015-04-28 22:18:00

标签: r xbrl

我从网站上下载了多个zip文件。每个zip文件包含多个htmlxml扩展名文件(每个文件大约100K)。

可以手动提取文件然后解析它们。但是,我希望能够在R(如果可能)

中执行此操作

示例文件(抱歉有点大)使用来自的代码 previous question   - 下载一个zip文件

library(XML)

pth <- "http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html"
doc <- htmlParse(pth)

myfiles <- doc["//a[contains(text(),'Accounts_Monthly_Data')]", fun = xmlAttrs][[1]]
fileURLS <- file.path("http://download.companieshouse.gov.uk", myfiles) [[1]]

dir.create("temp", "hmrcCache")
download.file(fileURLS, destfile = file.path("temp", myfiles))

我可以使用。解析文件 XBRL package如果我手动提取它们。 这可以按如下方式完成

library(XBRL)     
inst <- file.path("temp", "Prod224_0004_00000121_20130630.html")
out <- xbrlDoAll(inst, cache.dir="temp/hmrcCache", prefix.out=NULL, verbose=T)

我正在努力解决如何从zip文件夹中提取这些文件并使用R解析每个文件,而不是手动提取它们。 我试着开始,但不知道如何从这里开始。谢谢你的任何建议。

# Get names of files
lst <- unzip(file.path("temp", myfiles), list=TRUE)
dim(lst) # 118626

# unzip  and extract first file
nms <- lst$Name[1] # Prod224_0004_00000121_20130630.html
lst2 <- unz(file.path("temp", myfiles), filename=nms)

我使用的是Windows 8.1

R版本3.1.2(2014-10-31)

平台:x86_64-w64-mingw32 / x64(64位)

0 个答案:

没有答案