按顺序更新data.table中的行

时间:2016-12-28 13:53:52

标签: r data.table vectorization sequential

我有一个非常大的数据集,我想使用data.table在R中执行以下计算:

library(data.table)

# This is a test dataset
tempData <-data.table(
  drugName = rep("Aspirine", times = 4),
  startdt = c("2012-01-01",
              "2012-01-20",
              "2012-02-15",
              "2012-03-10"),
  daysupp = c(30,30,10,20))


# An example of the desired computation
tempData[, startdt:= as.Date(startdt)]
tempData[1, enddt:= startdt + daysupp]

for (i in 2:nrow(tempData)) {

  if (tempData[i,startdt] >= tempData[i-1,enddt]) {
    tempData[i, enddt:= startdt + daysupp]

  } else {
    tempData[i, enddt:= tempData[i-1,enddt] + daysupp]
  }

}

应该针对不同的药物名称进行此计算,以便我可以创建for loop的函数,并将其用于我的DT,品牌名称为group by。这种计算需要花费很多时间。我想知道是否有办法使用矢量化方法顺序更新data.table行。

我正在考虑使用shift但是我找不到按照这两个enddt语句顺序更新if变量的方法。

这是关于如何快速处理这种类型的计算的一般性问题。

2 个答案:

答案 0 :(得分:3)

我写了一个简单的Rcpp函数,而不是花时间试图找到一个矢量化的R解决方案:

library(Rcpp)
sourceCpp(code = "
          #include <Rcpp.h>
          // [[Rcpp::export]]
          Rcpp::IntegerVector myfun(const Rcpp::IntegerVector x, const Rcpp::IntegerVector y) {
          Rcpp::IntegerVector res = x;
          res(0) = x(0) + y(0);
          for (int i=1; i<x.length(); i++) {
            if (x(i) >= res(i-1)) res(i) += y(i);
            else res(i) = res(i-1) + y(i);
          }
          return res;
          }
          ")
tempData[, enddt1 := myfun(startdt, daysupp)]
#   drugName    startdt daysupp      enddt     enddt1
#1: Aspirine 2012-01-01      30 2012-01-31 2012-01-31
#2: Aspirine 2012-01-20      30 2012-03-01 2012-03-01
#3: Aspirine 2012-02-15      10 2012-03-11 2012-03-11
#4: Aspirine 2012-03-10      20 2012-03-31 2012-03-31

答案 1 :(得分:1)

这对您的解决方案略有不同,使用pmax代替if语句,在给定数据集上大约快30%

library(data.table)
tempData[, startdt:= as.Date(startdt)]
tempData[1, enddt:= startdt + daysupp]

for (i in 2:nrow(tempData)) {
  tempData[i, enddt:=pmax(startdt, tempData[i-1,enddt]) + daysupp]
}