假设我有一个数据帧:
df<-data.frame(id=1:8,group=c(1,0,0,1,1,0,1,0),rep=c(rep("d1",4),rep("d2",4)),value=rbinom(8,1,0.6))
df
id group rep value
1 1 1 d1 0
2 2 0 d1 0
3 3 0 d1 0
4 4 1 d1 1
5 5 1 d2 1
6 6 0 d2 0
7 7 1 d2 1
8 8 0 d2 1
通过group
和rep
获得累计金额的最佳方法是:
cumsum
group d1 d1+d2 d1+d2+d3
0 0 1 ...
1 1 3 ...
答案 0 :(得分:13)
我建议你一起工作 tidy形式的数据。 这是dplyr的一种方法,但转换为简单的方法 data.table或base R。
首先,我将创建数据集,设置随机种子来制作数据集 示例可重现:
set.seed(1014)
df <- data.frame(
id = 1:8,
group = c(1, 0, 0, 1, 1, 0, 1, 0),
rep = c(rep("d1", 4), rep("d2", 4)),
value = rbinom(8, 1, 0.6)
)
df
%> id group rep value
%> 1 1 1 d1 1
%> 2 2 0 d1 0
%> 3 3 0 d1 0
%> 4 4 1 d1 1
%> 5 5 1 d2 1
%> 6 6 0 d2 1
%> 7 7 1 d2 1
%> 8 8 0 d2 1
接下来,使用dplyr,我将首先按组拆分到各个行,并且 然后计算累积总和:
library(dplyr)
df <- df %>%
group_by(group, rep) %>%
summarise(value = sum(value)) %>%
mutate(csum = cumsum(value))
df
%> Source: local data frame [4 x 4]
%> Groups: group
%>
%> group rep value csum
%> 1 0 d1 0 0
%> 2 0 d2 2 2
%> 3 1 d1 2 2
%> 4 1 d2 2 4
对于大多数情况,您最好将数据保留在此表单中(它将是 更容易工作),但如果你需要,你可以重塑:
library(reshape2)
dcast(df, group ~ rep, value.var = "csum")
%> group d1 d2
%> 1 0 0 2
%> 2 1 2 4
答案 1 :(得分:12)
library(data.table)
# convert to data.table in place
setDT(df)
# dcast and do individual sums
dt.cast = dcast.data.table(df, group ~ rep, value.var = 'value',
fun.aggregate = sum)
dt.cast
# group d1 d2
#1: 0 0 1
#2: 1 1 2
# cumsum
dt.cast[, as.list(cumsum(unlist(.SD))), by = group]
# group d1 d2
#1: 0 0 1
#2: 1 1 3