查找每x个观测值的平均值以获取数据框列表

时间:2018-07-09 06:20:15

标签: r time-series aggregate mean

我正在尝试遵循以下SO帖子:Calculate the mean of every 13 rows in data frame,但是由于某种原因,它在我端无法正常工作。他们的例子很好用:

df <- data.frame(a=1:12, b=13:24 );
df
n <- 5;
aggregate(df,list(rep(1:(nrow(df)%/%n+1),each=n,len=nrow(df))),mean)[-1];

     a    b
1  3.0 15.0
2  8.0 20.0
3 11.5 23.5

但是,我的,使用for循环遍历dfs列表,

for (dset in 1:5){
  if(dset == 1){n <- 60}
  else{n <- 12}#else combine by 12
  print(n)
  v.ntrade <- aggregate(B.list[[dset]][,7],list(rep(1:(nrow(B.list[[dset]][,7])%/%n+1),each=n,len=nrow(B.list[[dset]][,7]))),sum)
  v.volume <- aggregate(B.list[[dset]][,5],list(rep(1:(nrow(B.list[[dset]][,5])%/%n+1),each=n,len=nrow(B.list[[dset]][,5]))),sum)

  B.list[[dset]] <- aggregate(B.list[[dset]],list(rep(1:(nrow(B.list[[dset]])%/%n+1),each=n,len=nrow(B.list[[dset]]))),mean)
  #replace vol and ntrades
  B.list[[dset]][,7] <- v.ntrade[,2]
  B.list[[dset]][,5] <- v.volume[,2]
  B.list[[dset]] <- B.list[[dset]][,-1]    }

之前:

> B.list[[1]][,4]
       PAIRclose
    1:   8063.21
    2:   8065.95
    3:   8053.50
    4:   8040.00
    5:   8054.00
   ---          
75009:   7471.40
75010:   7461.99
75011:   7472.56
75012:   7482.05
75013:   7469.69

之后:

> B.list[[1]][,4]
   [1] 5698.0203 2257.8796 2886.9289 1812.9951 1521.3267 2305.9228 1103.6083

聚合函数有一些奇怪的行为吗?还是%/%n + 1是我不知道它会做什么。

1 个答案:

答案 0 :(得分:0)

我们可以使用tidyverse来做到这一点。用list遍历map个数据集,用gl创建一个分组变量,然后使用summarise_all获得所有其他列的mean

library(tidyverse)
lst %>% 
    map(~ .x %>%
            group_by(grp = as.integer(gl(n(), n, n()))) %>% 
            summarise_all(mean))
#[[1]]
# A tibble: 3 x 3
#    grp     a     b
#  <int> <dbl> <dbl>
#1     1   3    15  
#2     2   8    20  
#3     3  11.5  23.5

#[[2]]
# A tibble: 3 x 3
#    grp     a     b
#  <int> <dbl> <dbl>
#1     1   3    15  
#2     2   8    20  
#3     3  11.5  23.5

或者将base Rlapplyaggregate一起使用

lapply(lst, function(x) aggregate(.~ cbind(grp = as.integer(gl(nrow(x),
          n, nrow(x)))), x, mean)[-1])

数据

lst <- list(df, df)