好的,快速连续的第二个R问题。
我的数据:
Timestamp St_01 St_02 ...
1 2008-02-08 00:00:00 26.020 25.840 ...
2 2008-02-08 00:10:00 25.985 25.790 ...
3 2008-02-08 00:20:00 25.930 25.765 ...
4 2008-02-08 00:30:00 25.925 25.730 ...
5 2008-02-08 00:40:00 25.975 25.695 ...
...
基本上我通常会使用ddply
和summarize
的组合来计算合奏(例如全年每小时的平均值)。
在上面的例子中,我会创建一个类别,例如小时(例如strptime(data$Timestamp,"%H") -> data$hour
,然后在ddply
中使用该类别,例如ddply(data,"hour", summarize, St_01=mean(St_01), St_02=mean(St_02)...)
,按类别对每个列进行平均。
但这里是粘性的地方。我有40多个列要处理,我不准备将它们作为summarize
函数的参数逐个输入。我曾经在shell中编写一个循环来生成这个代码,但这不是程序员如何解决问题的呢?
所以祈祷告诉,有没有人有更好的方法来实现相同的结果,但只需更少的击键?
答案 0 :(得分:37)
您可以使用numcolwise()
在所有数字列上运行摘要。
以下是使用iris
的示例:
ddply(iris, .(Species), numcolwise(mean))
Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1 setosa 5.006 3.428 1.462 0.246
2 versicolor 5.936 2.770 4.260 1.326
3 virginica 6.588 2.974 5.552 2.026
同样,catcolwise()
总结了所有分类列。
有关更多帮助和示例,请参阅?numcolwise
。
修改强>
另一种方法是使用reshape2
(由@ gsk3提出)。在这个例子中,这有更多的击键,但是给你很大的灵活性:
库(reshape2)
miris <- melt(iris, id.vars="Species")
x <- ddply(miris, .(Species, variable), summarize, mean=mean(value))
dcast(x, Species~variable, value.var="mean")
Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1 setosa 5.006 3.428 1.462 0.246
2 versicolor 5.936 2.770 4.260 1.326
3 virginica 6.588 2.974 5.552 2.026
答案 1 :(得分:7)
你甚至可以通过完全省略ddply调用来简化Andrie提出的第二种方法。只需在dcast调用中指定mean
作为聚合函数:
library(reshape2)
miris <- melt(iris, id.vars="Species")
dcast(miris, Species ~ variable, mean)
Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1 setosa 5.006 3.428 1.462 0.246
2 versicolor 5.936 2.770 4.260 1.326
3 virginica 6.588 2.974 5.552 2.026
使用data.table
包也可以非常快速地计算相同的结果。 j表达式中的.SD
变量是一个特殊的data.table变量,包含每个组的数据子集,不包括by
中使用的所有列。
library(data.table)
dt_iris <- as.data.table(iris)
dt_iris[, lapply(.SD, mean), by = Species]
Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1: setosa 5.006 3.428 1.462 0.246
2: versicolor 5.936 2.770 4.260 1.326
3: virginica 6.588 2.974 5.552 2.026
另一种选择是Hadley dplyr
包的新版本0.2
library(dplyr)
group_by(iris, Species) %>% summarise_each(funs(mean))
Source: local data frame [3 x 5]
Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1 setosa 5.006 3.428 1.462 0.246
2 versicolor 5.936 2.770 4.260 1.326
3 virginica 6.588 2.974 5.552 2.026