Question

我正在尝试通过使用foreach来提高循环计算速度，但是在该循环中定义了一个简单的Rcpp函数。我将Rcpp函数另存为mproduct.cpp，并使用

简单地调用了该函数

sourceCpp("mproduct.cpp")

Rcpp函数是一个简单的函数，它可以在C ++中执行矩阵乘积：

// [[Rcpp::depends(RcppArmadillo, RcppEigen)]]

#include <RcppArmadillo.h>
#include <RcppEigen.h>

// [[Rcpp::export]]
SEXP MP(const Eigen::Map<Eigen::MatrixXd> A, Eigen::Map<Eigen::MatrixXd> B){
  Eigen::MatrixXd C = A * B;
  return Rcpp::wrap(C);
}

因此，Rcpp文件中的函数是MP，是指矩阵乘积。我需要执行以下foreach循环（我已简化了代码说明）：

foreach(j=1:n, .package='Rcpp',.noexport= c("mproduct.cpp"),.combine=rbind)%dopar%{
n=1000000
A<-matrix(rnorm(n,1000,1000))
B<-matrix(rnorm(n,1000,1000))
S<-MP(A,B)
return(S)
}

由于矩阵A和B的大小很大，所以我要使用foreach来减轻计算成本。

但是，上面的代码不起作用，因为它为我提供了错误消息：

task 1 failed - "NULL value passed as symbol address"

我添加.noexport= c("mproduct.cpp")的原因是要遵循解决类似问题（Can't run Rcpp function in foreach - "NULL value passed as symbol address"）的人员的一些建议。但这不解决我的问题。

因此，我尝试将Rcpp函数安装为库。我使用了以下代码：

Rcpp.package.skeleton('mp',cpp_files = "<my working directory>")

但它会向我返回警告消息：

The following packages are referenced using Rcpp::depends attributes however are not listed in the Depends, Imports or LinkingTo fields of the package DESCRIPTION file: RcppArmadillo, RcppEigen

所以当我尝试使用安装程序包

install.packages("<my working directory>",repos = NULL,type='source')

我收到警告消息：

Error in untar2(tarfile, files, list, exdir, restore_times) : 
  incomplete block on file
In R CMD INSTALL
Warning in install.packages :
  installation of package ‘C:/Users/Lenovo/Documents/mproduct.cpp’ had non-zero exit status

那么有人可以帮助我解决以下问题吗？1）将foreach与Rcpp函数MP一起使用，或2）将Rcpp文件作为软件包安装？

非常感谢大家。

Answer 1

第一步是确保您在优化正确的东西。对我来说，不是，因为这个简单的基准测试显示：

set.seed(42)
n <- 1000
A<-matrix(rnorm(n*n), n, n)
B<-matrix(rnorm(n*n), n, n)

MP <- Rcpp::cppFunction("SEXP MP(const Eigen::Map<Eigen::MatrixXd> A, Eigen::Map<Eigen::MatrixXd> B){
  Eigen::MatrixXd C = A * B;
  return Rcpp::wrap(C);
}", depends = "RcppEigen")

bench::mark(MP(A, B), A %*% B)[1:5]
#> # A tibble: 2 x 5
#>   expression      min   median `itr/sec` mem_alloc
#>   <bch:expr> <bch:tm> <bch:tm>     <dbl> <bch:byt>
#> 1 MP(A, B)    277.8ms    278ms      3.60    7.63MB
#> 2 A %*% B      37.4ms     39ms     22.8     7.63MB

所以对我来说，通过%*%的矩阵乘积比通过RcppEigen的乘积快几倍。但是，当您在Windows上时，我将Linux与OpenBLAS一起用于矩阵操作，这通常意味着参考BLAS进行矩阵操作。可能是RcppEigen在您的系统上更快。我不确定Windows用户获得更快的BLAS实现有多困难（https://csgillespie.github.io/efficientR/set-up.html#blas-and-alternative-r-interpreters可能包含一些指针），但是我建议花一些时间进行调查。

现在，如果得出的结论是您的代码中确实需要RcppEigen或RcppArmadillo，并且想要将该代码放入包中，则可以执行以下操作。代替Rcpp::Rcpp.package.skeleton()使用RcppEigen::RcppEigen.package.skeleton() 或 RcppArmadillo::RcppArmadillo.package.skeleton()为基于RcppEigen 或 { {1}}。

创建一个依赖于其他Rcpp包的简单Rcpp包

1 个答案: