如何在Rcpp中测试NA的日期时间?

时间:2013-07-19 16:19:03

标签: r rcpp

使用Rcpp我正在尝试在传递给C ++(类NA)的POSIXct向量中测试DatetimeVector。似乎Rcpp::is_na(.)函数适用于NumericVectorCharcterVector ...但不适用于DatetimeVector

以下C++代码测试NANumericVector CharacterVector,但如果添加DatetimeVector则无法编译

#include <Rcpp.h>
using namespace std;
using namespace Rcpp;

//[[Rcpp::export]]
List testNA(DataFrame df){

    const int N = df.nrows();

    //Test for NA in an IntegerVector
    IntegerVector intV = df["intV"];
    LogicalVector resInt = is_na(intV); 
    //Test for NA in an CharacterVector
    CharacterVector strV = df["strV"];
    LogicalVector resStr = is_na(strV);

    //Test for NA in an DatetimeVector
    DatetimeVector dtV = df["dtV"];
    LogicalVector resDT;
    //resDT = is_na(dtV); UNCOMMENT => DOES NOT COMPILE

    return(List::create(_["df"]=df, 
                        _["resInt"]=resInt,
                        _["resStr"]=resStr,
                        _["resDT"]=resDT));

}
/*** R
cat("testing for NA\n")
intV <- c(1,NA,2)
df <- data.frame(intV=intV, strV=as.character(intV), dtV=as.POSIXct(intV,origin='1970-01-01'))
str(df)
testNA(df)
*/

在R

library("Rcpp")
sourceCpp("theCodeAbove.cpp")

2 个答案:

答案 0 :(得分:3)

我已为({1}}和is_na添加了DateVector的{​​{440}转换版“DatetimeVector,不需要转换为NumericVector,这会创建一个临时的我们实际上并不需要的对象。

但是,我们没有太大的性能影响,因为大部分时间用于构造DatetimeVector个对象。

#include <Rcpp.h>
using namespace Rcpp ;

// [[Rcpp::export]]
LogicalVector isna_cast( DatetimeVector d){
    // version with the cast
    return is_na( as<NumericVector>( d ) ) ;
}

// [[Rcpp::export]]
LogicalVector isna( DatetimeVector d){
    // without cast
    return is_na( d ) ;
}

// [[Rcpp::export]]
void do_nothing( DatetimeVector d){
    // just measuring the time it takes to 
    // create a DatetimeVector from an R object    
}

使用microbenchmark

对此进行基准测试
require(microbenchmark)

intV <- rep( c(1,NA,2), 100000 )
dtV  <- as.POSIXct(intV,origin='1970-01-01')

microbenchmark( 
    isna_cast( dtV ),
    isna( dtV ), 
    do_nothing( dtV )
)

#    Unit: milliseconds
#            expr      min       lq   median       uq      max neval
#  isna_cast(dtV) 67.03146 68.04593 68.71991 69.39960 96.46747   100
#       isna(dtV) 65.71262 66.43674 66.77992 67.16535 95.93567   100
# do_nothing(dtV) 57.15901 57.72670 58.08646 58.39948 58.97939   100

大约85%的时间用于创建DatetimeVector对象。这是因为DatetimeVectorDateVector类不使用我们在Rcpp中的其他地方使用的代理设计。 DatetimeVector本质上是std::vector<Datetime>,并且每个Datetime对象都是从R的基础对象的相应元素创建的。

更改DatetimeVectorDateVector的api并使其基于代理可能为时已晚,但也许有类似POSIXct类的空间。

相比之下,让我们衡量一下NumericVector

无效的时间
// [[Rcpp::export]]
void do_nothing_NumericVector( NumericVector d){}

#    Unit: microseconds
#                     expr      min         lq     median        uq       max
#           isna_cast(dtV) 66985.21 68103.0060 68960.7880 69416.227 95724.385
#                isna(dtV) 65699.72 66544.9935 66893.5720 67213.064 95262.267
#          do_nothing(dtV) 57209.26 57865.1140 58306.8780 58630.236 69897.636
# do_nothing_numeric(intV)     4.22     9.6095    15.2425    15.511    33.978

答案 1 :(得分:2)

编译器错误表明该方法不适用于DateTimeVector

test.cpp:18:13: error: no matching function for call to 'is_na'

简单的解决方法:

resDT = is_na( as<NumericVector>(dtV) ); // As per Dirk's suggestion