当涉及滞后变量和另一列时,如何使用dplyr mutate对列执行操作

时间:2016-09-01 15:58:13

标签: r dplyr apply

假设我有一个像这样的数据框

> dat
  a          b         c
1 1  0.3321008 0.3321008
2 2 -0.2946729        NA
3 3 -0.1447266        NA
4 4 -0.9415429        NA
5 5 -1.0165080        NA

这是dput

structure(list(a = 1:5, b = c(0.332100835317822, -0.294672931641969, 
-0.144726592564241, -0.941542877670977, -1.0165079846083), c = c(0.332100835317822, 
NA, NA, NA, NA)), .Names = c("a", "b", "c"), row.names = c(NA, 
-5L), class = "data.frame")

我想在c列上执行c = lag(c)*b的操作(除了c中的第一个元素

我可以使用简单的for循环执行此操作,如下所示

for(i in (1:4)){
  dat$c[i+1] <- dat$c[i]*dat$b[i+1]
}

输出:

> dat
  a          b           c
1 1  0.3321008  0.33210084
2 2 -0.2946729 -0.09786113
3 3 -0.1447266  0.01416311
4 4 -0.9415429 -0.01333517
5 5 -1.0165080  0.01355531

如何使用dplyr mutate执行此操作?或使用应用功能?

1 个答案:

答案 0 :(得分:4)

通过数学运算,我们可以避免迭代计算:

library(dplyr)
dat %>% mutate(c = cumprod(replace(b, 1, 1))*c[1])