我无法将拆分应用于data.frame,然后将一些聚合结果汇总回不同的data.frame。我尝试使用'unsplit'功能,但我无法弄清楚如何正确使用它来获得所需的结果。让我演示常见的“mtcars”数据:假设我的最终结果是得到一个包含两个变量的数据框:cyl(柱面)和mean_mpg(对于共享相同柱面数的汽车组,平均值超过mpg)。 / p>
所以最初的分裂是这样的:
spl <- split(mtcars, mtcars$cyl)
其结果如下所示:
$`4`
mpg cyl disp hp drat wt qsec vs am gear carb
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
...
$`6`
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
...
$`8`
mpg cyl disp hp drat wt qsec vs am gear carb
Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
...
现在我想做一些事情:
df <- as.data.frame(lapply(spl, function(x) mean(x$mpg)), col.names=c("cyl", "mean_mpg"))
但是,执行上述操作会导致:
X4 X6 X8
1 26.66364 19.74286 15.1
虽然我希望df是这样的:
cyl mean_mpg
1 4 26.66364
2 6 19.74286
3 8 15.10000
谢谢,J。
答案 0 :(得分:1)
如果您只对重组拆分感兴趣,请查看(2),(4)和(4a),但如果实际的基本问题实际上是关于在群组上执行聚合的方式,那么它们都可能是有意义的:
1)聚合通常会使用评论中已提及的aggregate
。稍微简化@ alistaire的代码:
aggregate(mpg ~ cyl, mtcars, mean)
2)split / lapply / do.call 同样@rawr在评论中给出了split / lapply / do.call解决方案,我们也可以稍微简化:
spl <- split(mtcars, mtcars$cyl)
do.call("rbind", lapply(spl, with, data.frame(cyl = cyl[1], mpg = mean(mpg))))
3)do.call/by 最后一个可以用by
重写:
do.call("rbind", by(mtcars, mtcars$cyl, with, data.frame(cyl = cyl[1], mpg = mean(mpg))))
4)split / lapply / unsplit 另一种可能性是使用split
和unsplit
:
spl <- split(mtcars, mtcars$cyl)
L <- lapply(spl, with, data.frame(cyl = cyl[1], mpg = mean(mpg), row.names = cyl[1]))
unsplit(L, sapply(L, "[[", "cyl"))
4a)或者如果行名称足够:
spl <- split(mtcars, mtcars$cyl)
L <- lapply(spl, with, data.frame(mpg = mean(mpg), row.names = cyl[1]))
unsplit(L, sapply(L, rownames))
以上不使用任何软件包,但也有许多软件包可以进行聚合,包括dplyr,data.table和sqldf:
5)dplyr
library(dplyr)
mtcars %>%
group_by(cyl) %>%
summarize(mpg = mean(mpg)) %>%
ungroup()
6)data.table
library(data.table)
as.data.table(mtcars)[, list(mpg = mean(mpg)), by = "cyl"]
7)sqldf
library(sqldf)
sqldf("select cyl, avg(mpg) mpg from mtcars group by cyl")