可以从C或Fortran读取.Rdata文件格式吗?

时间:2014-11-17 20:50:59

标签: c r performance fortran hdf

我正在C上写一些R扩展(从R调用C函数)。

我的代码需要同时使用2个不同的数据集来计算统计量,我需要使用所有可能的对组合来执行此操作。然后,我需要所有这些统计信息(非常大的数组)来继续C侧的计算。这些文件非常大,通常约为40GB,这就是我的问题。

要在R调用的C上执行此操作,首先我需要加载R中的所有数据集以将它们传递给C函数调用。但是,理想情况下,如果我能够直接从C或Fortran访问数据集,则可以按顺序在内存中仅保留其中2个文件:

open  file1 - open file2 - compute cov(1,2)
close file2
hold  file1 - open file3 - compute cov(1,3)
... // same approach

这在R上很好,因为我可以加载/卸载文件,但是在调用C或Fortran时我没有任何加载/卸载文件的机制。所以,我的问题是,我可以直接从Fortran或C读取.Rdata文件,能够打开/关闭它们吗?还有其他任何解决问题的方法吗?

据我所知,答案是否定的。所以,我考虑从Rdata转移到HDF5。

1 个答案:

答案 0 :(得分:4)

使用.Call接口从C调用R函数并不困难。因此,编写一个输入数据的R函数,并从C调用它。当您完成一个文件时,UNPROTECT()您读入的数据。这将在下面说明

## function that reads my data in from a single file
fun <- function(fl)
    readLines(fl)

library(inline)  ## party trick -- compile C code from within R
doit <- cfunction(signature(fun="CLOSXP", filename="STRSXP", env="ENVSXP"), '
    SEXP lng = PROTECT(lang2(fun, filename)); // create R language expression
    SEXP ans = PROTECT(eval(lng, env));       // evaluate the expression
    // do things with the ans, e.g., ...
    int len = length(ans);
    UNPROTECT(2);                     // release for garbage collection
    return ScalarInteger(len);        // return something
')

doit(fun, "call.R", environment())

一种更简单的方法是反转问题 - 读入两个数据文件,然后用数据调用C.