我正在尝试遵循以下SO帖子:Calculate the mean of every 13 rows in data frame,但是由于某种原因,它在我端无法正常工作。他们的例子很好用:
df <- data.frame(a=1:12, b=13:24 );
df
n <- 5;
aggregate(df,list(rep(1:(nrow(df)%/%n+1),each=n,len=nrow(df))),mean)[-1];
a b
1 3.0 15.0
2 8.0 20.0
3 11.5 23.5
但是,我的,使用for循环遍历dfs列表,
for (dset in 1:5){
if(dset == 1){n <- 60}
else{n <- 12}#else combine by 12
print(n)
v.ntrade <- aggregate(B.list[[dset]][,7],list(rep(1:(nrow(B.list[[dset]][,7])%/%n+1),each=n,len=nrow(B.list[[dset]][,7]))),sum)
v.volume <- aggregate(B.list[[dset]][,5],list(rep(1:(nrow(B.list[[dset]][,5])%/%n+1),each=n,len=nrow(B.list[[dset]][,5]))),sum)
B.list[[dset]] <- aggregate(B.list[[dset]],list(rep(1:(nrow(B.list[[dset]])%/%n+1),each=n,len=nrow(B.list[[dset]]))),mean)
#replace vol and ntrades
B.list[[dset]][,7] <- v.ntrade[,2]
B.list[[dset]][,5] <- v.volume[,2]
B.list[[dset]] <- B.list[[dset]][,-1] }
之前:
> B.list[[1]][,4]
PAIRclose
1: 8063.21
2: 8065.95
3: 8053.50
4: 8040.00
5: 8054.00
---
75009: 7471.40
75010: 7461.99
75011: 7472.56
75012: 7482.05
75013: 7469.69
之后:
> B.list[[1]][,4]
[1] 5698.0203 2257.8796 2886.9289 1812.9951 1521.3267 2305.9228 1103.6083
等
聚合函数有一些奇怪的行为吗?还是%/%n + 1是我不知道它会做什么。
答案 0 :(得分:0)
我们可以使用tidyverse
来做到这一点。用list
遍历map
个数据集,用gl
创建一个分组变量,然后使用summarise_all
获得所有其他列的mean
library(tidyverse)
lst %>%
map(~ .x %>%
group_by(grp = as.integer(gl(n(), n, n()))) %>%
summarise_all(mean))
#[[1]]
# A tibble: 3 x 3
# grp a b
# <int> <dbl> <dbl>
#1 1 3 15
#2 2 8 20
#3 3 11.5 23.5
#[[2]]
# A tibble: 3 x 3
# grp a b
# <int> <dbl> <dbl>
#1 1 3 15
#2 2 8 20
#3 3 11.5 23.5
或者将base R
与lapply
和aggregate
一起使用
lapply(lst, function(x) aggregate(.~ cbind(grp = as.integer(gl(nrow(x),
n, nrow(x)))), x, mean)[-1])
lst <- list(df, df)