请考虑目录中的tar.gz文件,该文件包含很多单个文件。
从R中,我可以使用以下命令轻松提取单个文件的名称:
sort -u
仅使用R 是否可以直接将其中一个文件读/加载到R中(又不需要先将文件解压缩并将其写入磁盘)?
答案 0 :(得分:1)
有可能,但是我不知道任何干净的实现(它可能存在)。以下是一些在许多情况下都可以使用的非常基本的R代码(例如,归档文件中具有完整路径的文件名应少于100个字符)。在某种程度上,它只是以一种非常粗糙的方式重新实现了“未处理”,但是以某种方式将其指向压缩文件中的所需文件。
第一个问题是,您应该仅从头开始读取压缩文件。不幸的是,在gzip压缩的文件中,使用“ seek()”将文件指针重新定位到所需文件的位置不稳定。
ParseTGZ<- function(archname){
# open tgz archive
tf <- gzfile(archname, open='rb')
on.exit(close(tf))
fnames <- list()
offset <- 0
nfile <- 0
while (TRUE) {
# go to beginning of entry
# never use "seek" to re-locate in a gzipped file!
if (seek(tf) != offset) readBin(tf, what="raw", n= offset - seek(tf))
# read file name
fName <- rawToChar(readBin(tf, what="raw", n=100))
if (nchar(fName)==0) break
nfile <- nfile + 1
fnames <- c(fnames, fName)
attr(fnames[[nfile]], "offset") <- offset+512
# read size, first skip 24 bytes (file permissions etc)
# again, we only use readBin, not seek()
readBin(tf, what="raw", n=24)
# file size is encoded as a length 12 octal string,
# with the last character being '\0' (so 11 actual characters)
sz <- readChar(tf, nchars=11)
# convert string to number of bytes
sz <- sum(as.numeric(strsplit(sz,'')[[1]])*8^(10:0))
attr(fnames[[nfile]], "size") <- sz
# cat(sprintf('entry %s, %i bytes\n', fName, sz))
# go to the next message
# don't forget entry header (=512)
offset <- offset + 512*(ceiling(sz/512) + 1)
}
# return a named list of characters strings with attributes?
names(fnames) <- fnames
return(fnames)
}
这将为您提供tar.gz归档文件中所有文件的确切位置和长度。 现在,下一步是实际扩展单个文件。您可能可以直接使用“ gzfile”连接来执行此操作,但是在这里我将使用rawConnection()。假定您的文件适合内存。
extractTGZ <- function(archfile, filename) {
# this function returns a raw vector
# containing the desired file
fp <- ParseTGZ(archfile)
offset <- attributes(fp[[filename]])$offset
fsize <- attributes(fp[[filename]])$size
gzf <- gzfile(archfile, open="rb")
on.exit(close(gzf))
# jump to the byte position, don't use seek()
# may be a bad idea on really large archives...
readBin(gzf, what="raw", n=offset)
# now read the data into a raw vector
result <- readBin(gzf, what="raw", n=fsize)
result
}
现在,终于:
ff <- rawConnection(ExtractTGZ("myarchive", "myfile"))
现在,您可以将ff
视为文件(指向该文件的连接)。但是它仅存在于内存中。