我有一个数据框(df),如下所示,
a b c
12 14 21
71 23 58
20 33 64
3 22 12
25 55 19
31 14 20
29 20 31
10 10 41
20 37 33
31 99 43
42 24 34
每个元素在此数据框中都没有模式。
list<-c(1,3,5)
我目前的代码是
df$d<-NA
for (i in 1:length(list)){
for( j in 1:nrow(df)){
df$d[j]<- df$c[j]- df$b[j+i]
print(mean(df$d, na.rm=TRUE))
}
}
对于&#34; list&#34;中的每个元素,我循环并计算均值(df $ d),然后让它再次循环,然后再次找到均值(df $ d)。 / p>
预期结果:
当i = 1时
a b c d
12 14 21 -2 (=21-23)
71 23 58 25 (=58-33)
20 33 64 42
3 22 12 -43
25 55 19 5
31 14 20 0
29 20 31 21
10 10 41 4
20 37 33 -66
31 99 43 19
42 24 34 NA
然后,找到列的平均值&#34; d&#34;,即(均值(df $ d,na.rm = TRUE),即5 / 10rows = 0.5,这是真的是我的意思需要。
当i = 3时
a b c d
12 14 21 -1 (=21-22)
71 23 58 3 (=58-55)
20 33 64 50
3 22 12 -8
25 55 19 9
31 14 20 -17
29 20 31 -68
10 10 41 17
20 37 33 NA
31 99 43 NA
42 24 34 NA
然后,找到列&#34; d&#34;的平均值,即(均值(df $ d,na.rm = TRUE),即-15 / 8rows = -1.875,此平均值为真的是我需要的。
这段代码非常慢,因为它有两个循环运行,整个数据有超过50K行,而真正的列表有超过15个元素,所以它需要永远。请有人帮我解决这个问题,非常感谢你。
答案 0 :(得分:2)
我们可以使用list
遍历sapply
中的每个元素。我们使用lead
中的dplyr
来获取b
的前导值并从c
列中减去它,然后计算mean
除去NA
值。
library(dplyr)
sapply(list, function(x) mean(df$c - lead(df$b, x), na.rm = T))
#[1] 0.500000 -1.875000 -1.666667