我有一个非常大的时间序列,我需要根据开头的某个任意值创建一个不同的时间序列,并在当前时间段内进行更改。在真实数据集中,此更改取决于数据框的其他变量,但出于MWE的目的,我按如下方式重新创建它:
initial_value <- 100
set.seed(123)
library(data.table)
df <- as.data.table(data.frame(num = c(1:10),change = rnorm(10)))
新变量value
被定义为上一期间自己的值加上当前期间的change
。第一次观察中的值由任意选择的initial_value
确定。如果对value
没有限制,则可以将其简单地创建为
df <- df[, value0 := initial_value + cumsum(change)]
使用data.table
非常快。但遗憾的是,change
也可能取决于前一期的实际value
。具体来说,假设每当它达到102时,系列需要在下一个时期到达initial_value
并在那里停留3个周期。因此,在以下数据框中,我需要创建变量value
,而上面的代码生成value0
:
num change value0 value
1: 1 -0.56047565 99.43952 99.43952
2: 2 -0.23017749 99.20935 99.20935
3: 3 1.55870831 100.76806 100.76806
4: 4 0.07050839 100.83856 100.83856
5: 5 0.12928774 100.96785 100.96785
6: 6 1.71506499 102.68292 102.68292
7: 7 0.46091621 103.14383 100.00000
8: 8 -1.26506123 101.87877 100.00000
9: 9 -0.68685285 101.19192 100.00000
10: 10 -0.44566197 100.74626 99.55434
到目前为止,我设法产生此结果的唯一方法是使用循环:
df$value <- NA
df$value[1] <- initial_value + df$change[1]
for (i in 2:nrow(df)) {
if (is.na(df$value[i])) {
if (df$value[i-1] < 102) {
df$value[i] <- df$value[i-1] + df$change[i]
} else {
df$value[i:(i+2)] <- initial_value
}
}
}
然而,循环(数十万)数百万次观测非常缓慢。有没有办法可以对其进行矢量化或者只是更有效地运行该过程?
答案 0 :(得分:6)
我建议你使用Rcpp进行简单的循环。复制请求的逻辑很容易 你的职能:
fun_r <- function(){
df$value <- NA
df$value[1] <- initial_value + df$change[1]
for (i in 2:nrow(df)) {
if (is.na(df$value[i])) {
if (df$value[i-1] < 102) {
df$value[i] <- df$value[i-1] + df$change[i]
} else {
df$value[i:(i+2)] <- initial_value
}
}
}
df
}
c ++中的相同功能
library(Rcpp)
cppFunction({'
NumericVector fun_c(NumericVector change, double init, double thr){
int n = change.size();
int end;
NumericVector out(n);
out[ 0 ] = init + change[ 0 ];
for(int i = 1; i < n; i++){
if( out[ i - 1 ] < thr ){
out[i] = out[ i - 1 ] + change[ i ];
} else {
end = std::min( i + 2 , n - 1);
for(int j = i; j <= end; j++) {
out[ j ] = init;
i = j;
}
}
}
return out;
}
'})
<强>更新强>
第一次写入的R函数(上图)基于data.frame
子集,这是处理R中数据的非常无效的方法。函数只是一个预期在所有基准测试中丢失的失败者。循环时,应始终进行矢量化(向量和矩阵)计算。以下功能与Rcpp示例相比具有更强的竞争力:
fun_r2 <- function(change, initial_value, thr ){
n <- length(change)
value <- numeric(n)
value[1] <- initial_value + change[1]
for (i in 2:n) {
if ( value[i]==0 ) {
if (value[i-1] < thr) {
value[i] <- value[i-1] + change[i]
} else {
value[i:(i+2)] <- initial_value
}
}
}
value
}
三个函数产生相同的结果,fun_c
是最快的,但矢量化fun_r2
函数可被认为是可接受的。
df$value <- fun_r()
df$value_r2 <- fun_r2(as.vector(df$change), init=100, thr=102)
df$value_rcpp <- fun_c(df$change, init=100, thr=102)
all.equal(df$value, df$value_rcpp)
all.equal(df$value, df$value_r2)
# TRUE
mb <- microbenchmark::microbenchmark(
fun_r(),
fun_r2(as.vector(df$change), init=100, thr=102),
fun_c(df$change, init=100, thr=102),
times=100L
)
# expr mean
# 1 fun_r() 6650.72481
# 2 fun_r2() 42.28442
# 3 fun_c() 18.24121
享受!