我有一个数据帧DF。
说DF是:
A B
1 1 2
2 1 3
3 2 3
4 3 5
5 3 6
现在我想通过A列将行组合在一起,并得到B列的总和。
例如:
A B
1 1 5
2 2 3
3 3 11
我目前正在使用sqldf函数的SQL查询。但由于某种原因,它非常缓慢。有没有更方便的方法呢?我也可以使用for循环手动完成,但它又慢了。我的SQL查询是“从A组中选择A,计数(B)”。
通常,每当我不使用矢量化操作并使用for循环时,即使对于单个过程,性能也非常慢。
答案 0 :(得分:90)
这是一个常见的问题。在base中,您要查找的选项是aggregate
。假设您的data.frame
被称为“mydf”,您可以使用以下内容。
> aggregate(B ~ A, mydf, sum)
A B
1 1 5
2 2 3
3 3 11
我还建议查看“data.table”包。
> library(data.table)
> DT <- data.table(mydf)
> DT[, sum(B), by = A]
A V1
1: 1 5
2: 2 3
3: 3 11
答案 1 :(得分:19)
使用dplyr
:
require(dplyr)
df <- data.frame(A = c(1, 1, 2, 3, 3), B = c(2, 3, 3, 5, 6))
df %>% group_by(A) %>% summarise(B = sum(B))
## Source: local data frame [3 x 2]
##
## A B
## 1 1 5
## 2 2 3
## 3 3 11
使用sqldf
:
library(sqldf)
sqldf('SELECT A, SUM(B) AS B FROM df GROUP BY A')
答案 2 :(得分:8)
我建议您查看plyr
包。
它可能没有data.table或其他软件包那么快,但它非常有启发性,特别是在从R开始并且必须进行一些数据操作时。
> DF <- data.frame(A = c("1", "1", "2", "3", "3"), B = c(2, 3, 3, 5, 6))
> library(plyr)
> DF.sum <- ddply(DF, c("A"), summarize, B = sum(B))
> DF.sum
A B
1 1 5
2 2 3
3 3 11
答案 3 :(得分:4)
require(reshape2)
T <- melt(df, id = c("A"))
T <- dcast(T, A ~ variable, sum)
我不确定聚合的确切优势。