Question

好的，快速连续的第二个R问题。

我的数据：

           Timestamp    St_01  St_02 ...
1 2008-02-08 00:00:00  26.020 25.840 ...
2 2008-02-08 00:10:00  25.985 25.790 ...
3 2008-02-08 00:20:00  25.930 25.765 ...
4 2008-02-08 00:30:00  25.925 25.730 ...
5 2008-02-08 00:40:00  25.975 25.695 ...
...

基本上我通常会使用ddply和summarize的组合来计算合奏（例如全年每小时的平均值）。

在上面的例子中，我会创建一个类别，例如小时（例如strptime(data$Timestamp,"%H") -> data$hour，然后在ddply中使用该类别，例如ddply(data,"hour", summarize, St_01=mean(St_01), St_02=mean(St_02)...)，按类别对每个列进行平均。

但这里是粘性的地方。我有40多个列要处理，我不准备将它们作为summarize函数的参数逐个输入。我曾经在shell中编写一个循环来生成这个代码，但这不是程序员如何解决问题的呢？

所以祈祷告诉，有没有人有更好的方法来实现相同的结果，但只需更少的击键？

Answer 1

您可以使用numcolwise()在所有数字列上运行摘要。

以下是使用iris的示例：

ddply(iris, .(Species), numcolwise(mean))
     Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1     setosa        5.006       3.428        1.462       0.246
2 versicolor        5.936       2.770        4.260       1.326
3  virginica        6.588       2.974        5.552       2.026

同样，catcolwise()总结了所有分类列。

有关更多帮助和示例，请参阅?numcolwise。

修改

另一种方法是使用reshape2（由@ gsk3提出）。在这个例子中，这有更多的击键，但是给你很大的灵活性：

库（reshape2）

miris <- melt(iris, id.vars="Species") x <- ddply(miris, .(Species, variable), summarize, mean=mean(value)) dcast(x, Species~variable, value.var="mean") Species Sepal.Length Sepal.Width Petal.Length Petal.Width 1 setosa 5.006 3.428 1.462 0.246 2 versicolor 5.936 2.770 4.260 1.326 3 virginica 6.588 2.974 5.552 2.026

Answer 2

你甚至可以通过完全省略ddply调用来简化Andrie提出的第二种方法。只需在dcast调用中指定mean作为聚合函数：

library(reshape2)
miris <- melt(iris, id.vars="Species")
dcast(miris, Species ~ variable, mean)

     Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1     setosa        5.006       3.428        1.462       0.246
2 versicolor        5.936       2.770        4.260       1.326
3  virginica        6.588       2.974        5.552       2.026

使用data.table包也可以非常快速地计算相同的结果。 j表达式中的.SD变量是一个特殊的data.table变量，包含每个组的数据子集，不包括by中使用的所有列。

library(data.table)
dt_iris <- as.data.table(iris)
dt_iris[, lapply(.SD, mean), by = Species]

     Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1:     setosa        5.006       3.428        1.462       0.246
2: versicolor        5.936       2.770        4.260       1.326
3:  virginica        6.588       2.974        5.552       2.026

另一种选择是Hadley dplyr包的新版本0.2

library(dplyr)
group_by(iris, Species) %>% summarise_each(funs(mean))

Source: local data frame [3 x 5]

     Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1     setosa        5.006       3.428        1.462       0.246
2 versicolor        5.936       2.770        4.260       1.326
3  virginica        6.588       2.974        5.552       2.026

ddply +总结在大量列中重复相同的统计函数

2 个答案: