Question

我有一个这样的数据框：

experiment iter  results
    A       1     30.0
    A       2     23.0
    A       3     33.3
    B       1     313.0
    B       2     323.0
    B       3     350.0
 ....

是否有办法通过应用具有条件的函数来计算结果。在上面的例子中，该条件是特定实验的所有迭代。

A   sum of results (30 + 23, + 33.3)
B   sum of results (313 + 323 + 350)

我正在考虑“应用”功能，但无法找到让它工作的方法。

Answer 1

有很多替代方法可以做到这一点。请注意，如果您对与sum不同的其他函数感兴趣，则只需更改参数FUN=any.function，例如，如果您需要mean，var length，等等，然后将这些函数插入FUN参数，例如FUN=mean，FUN=var等等。让我们探讨一些替代方案：

基础中的

aggregate功能。

> aggregate(results ~ experiment, FUN=sum, data=DF)
  experiment results
1          A    86.3
2          B   986.0

或者tapply？

> with(DF, tapply(results, experiment, FUN=sum))
    A     B 
 86.3 986.0

来自plyr包的ddply

> # library(plyr)
> ddply(DF[, -2], .(experiment), numcolwise(sum))
  experiment results
1          A    86.3
2          B   986.0

> ## Alternative syntax
> ddply(DF, .(experiment), summarize, sumResults = sum(results))
  experiment sumResults
1          A       86.3
2          B      986.0

dplyr包

> require(dplyr)
> DF %>% group_by(experiment) %>% summarise(sumResults = sum(results))
Source: local data frame [2 x 2]

  experiment  sumResults
1          A        86.3
2          B       986.0

使用sapply和split，相当于tapply。

> with(DF, sapply(split(results, experiment), sum))
    A     B 
 86.3 986.0

如果您担心时间安排，data.table是您的朋友：

> # library(data.table)
> DT <- data.table(DF)
> DT[, sum(results), by=experiment]
   experiment    V1
1:          A  86.3
2:          B 986.0

不太受欢迎，但doBy包很好（相当于aggregate，即使在语法中也是如此！）

> # library(doBy)
> summaryBy(results~experiment, FUN=sum, data=DF)
  experiment results.sum
1          A        86.3
2          B       986.0

by在这种情况下也有帮助

> (Aggregate.sums <- with(DF, by(results, experiment, sum)))
experiment: A
[1] 86.3
------------------------------------------------------------------------- 
experiment: B
[1] 986

如果您希望结果为矩阵，请使用cbind或rbind

> cbind(results=Aggregate.sums)
  results
A    86.3
B   986.0

来自sqldf包的

sqldf也可能是一个不错的选择

> library(sqldf)
> sqldf("select experiment, sum(results) `sum.results`
      from DF group by experiment")
  experiment sum.results
1          A        86.3
2          B       986.0

xtabs也有效（仅限于FUN=sum）

> xtabs(results ~ experiment, data=DF)
experiment
    A     B 
 86.3 986.0

有条件地应用功能

1 个答案: