拆分后重新组装数据帧

时间:2016-10-10 13:53:42

标签: r dataframe split

我无法将拆分应用于data.frame,然后将一些聚合结果汇总回不同的data.frame。我尝试使用'unsplit'功能,但我无法弄清楚如何正确使用它来获得所需的结果。让我演示常见的“mtcars”数据:假设我的最终结果是得到一个包含两个变量的数据框:cyl(柱面)和mean_mpg(对于共享相同柱面数的汽车组,平均值超过mpg)。 / p>

所以最初的分裂是这样的:

spl <- split(mtcars, mtcars$cyl)

其结果如下所示:

$`4`
                mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Datsun 710     22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Merc 240D      24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
...

$`6`
                mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Mazda RX4      21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
...

$`8`
                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
...

现在我想做一些事情:

df <- as.data.frame(lapply(spl, function(x) mean(x$mpg)), col.names=c("cyl", "mean_mpg"))

但是,执行上述操作会导致:

            X4       X6   X8
1 26.66364 19.74286 15.1

虽然我希望df是这样的:

  cyl mean_mpg
1   4 26.66364
2   6 19.74286
3   8 15.10000

谢谢,J。

1 个答案:

答案 0 :(得分:1)

如果您只对重组拆分感兴趣,请查看(2),(4)和(4a),但如果实际的基本问题实际上是关于在群组上执行聚合的方式,那么它们都可能是有意义的:

1)聚合通常会使用评论中已提及的aggregate。稍微简化@ alistaire的代码:

aggregate(mpg ~ cyl, mtcars, mean)

2)split / lapply / do.call 同样@rawr在评论中给出了split / lapply / do.call解决方案,我们也可以稍微简化:

spl <- split(mtcars, mtcars$cyl)
do.call("rbind", lapply(spl, with, data.frame(cyl = cyl[1], mpg = mean(mpg))))

3)do.call/by 最后一个可以用by重写:

do.call("rbind", by(mtcars, mtcars$cyl, with, data.frame(cyl = cyl[1], mpg = mean(mpg))))

4)split / lapply / unsplit 另一种可能性是使用splitunsplit

spl <- split(mtcars, mtcars$cyl)
L <- lapply(spl, with, data.frame(cyl = cyl[1], mpg = mean(mpg), row.names = cyl[1]))
unsplit(L, sapply(L, "[[", "cyl"))

4a)或者如果行名称足够:

spl <- split(mtcars, mtcars$cyl)
L <- lapply(spl, with, data.frame(mpg = mean(mpg), row.names = cyl[1]))
unsplit(L, sapply(L, rownames))

以上不使用任何软件包,但也有许多软件包可以进行聚合,包括dplyr,data.table和sqldf:

5)dplyr

library(dplyr)
mtcars %>%
       group_by(cyl) %>%
       summarize(mpg = mean(mpg)) %>%
       ungroup()

6)data.table

library(data.table)
as.data.table(mtcars)[, list(mpg = mean(mpg)), by = "cyl"]

7)sqldf

library(sqldf)
sqldf("select cyl, avg(mpg) mpg from mtcars group by cyl")