创建新列并使用r

时间:2017-09-28 02:30:20

标签: r loops calculated-columns

我有一个数据框(df),如下所示,

a    b    c
12   14   21
71   23   58
20   33   64
3    22   12
25   55   19
31   14   20
29   20   31
10   10   41
20   37   33
31   99   43
42   24   34

每个元素在此数据框中都没有模式。

list<-c(1,3,5)

我目前的代码是

df$d<-NA

  for (i in 1:length(list)){
      for( j in 1:nrow(df)){
  df$d[j]<- df$c[j]- df$b[j+i]
  print(mean(df$d, na.rm=TRUE))
}
}

对于&#34; list&#34;中的每个元素,我循环并计算均值(df $ d),然后让它再次循环,然后再次找到均值(df $ d)。 / p>

预期结果:

当i = 1时

a    b    c    d
12   14   21   -2 (=21-23)
71   23   58   25 (=58-33)
20   33   64   42   
3    22   12   -43
25   55   19    5
31   14   20    0
29   20   31   21
10   10   41    4
20   37   33   -66
31   99   43   19
42   24   34   NA

然后,找到列的平均值&#34; d&#34;,即(均值(df $ d,na.rm = TRUE),即5 / 10rows = 0.5,这是真的是我的意思需要。

当i = 3时

a    b    c    d
12   14   21   -1 (=21-22)
71   23   58   3 (=58-55)
20   33   64   50   
3    22   12   -8
25   55   19    9
31   14   20    -17
29   20   31   -68
10   10   41    17
20   37   33   NA
31   99   43   NA
42   24   34   NA

然后,找到列&#34; d&#34;的平均值,即(均值(df $ d,na.rm = TRUE),即-15 / 8rows = -1.875,此平均值为真的是我需要的。

这段代码非常慢,因为它有两个循环运行,整个数据有超过50K行,而真正的列表有超过15个元素,所以它需要永远。请有人帮我解决这个问题,非常感谢你。

1 个答案:

答案 0 :(得分:2)

我们可以使用list遍历sapply中的每个元素。我们使用lead中的dplyr来获取b的前导值并从c列中减去它,然后计算mean除去NA值。

library(dplyr)
sapply(list, function(x) mean(df$c - lead(df$b, x), na.rm = T))

#[1]  0.500000 -1.875000 -1.666667