如何按R中的分组列求和?

时间:2017-02-21 18:25:02

标签: r dplyr

这是我的意见。一个包含n列的数据框,以及一个将每个id分配给一个组的辅助数据框。

UIWebView

获得此输出的一般方法是什么? (总结a1 + a2和b1 + b2)

df <- data.frame(
  a1 = c(1,2,3), 
  a2 = c(2,3,4), 
  b1 = c(4,5,6), 
  b2 = c(5,6,7)
)
aux <- data.frame(
  id = c("a1", "a2", "b1", "b2"),
  group = c("a", "a", "b", "b")
)

我已尝试使用desired_output <- data.frame( a = c(3,5,7), b = c(9,11,13) ) dplyr::group_by,但我还没有让它工作。

3 个答案:

答案 0 :(得分:4)

为了避免必须拆分数据帧并通过代码传递长数据帧列表,您可以使用索引:

cols <- split(aux$id, aux$group)

data.frame(lapply(cols, function(i) rowSums(df[i])))

答案 1 :(得分:3)

您可以尝试split.default根据列名 id / pattern 将数据框拆分为子数据框列表,然后将rowSums应用于每个子数据帧:

# create a group variable by columns
g <- aux$group[match(names(df), aux$id)]
g
# [1] a a b b
# Levels: a b

as.data.frame(lapply(split.default(df, g), rowSums))

#  a  b
#1 3  9
#2 5 11
#3 7 13

答案 2 :(得分:2)

这是一个非常通用的基础R方法。

# define your groups
myGroups <- c("a", "b")

# get the column positions of your groups, given aux data.frame
myCols <- lapply(unique(aux$group), function(i) which(aux$group == i))

# get the data.frame of the row sums for each colum group
dfNew <- setNames(data.frame(lapply(myGroups, function(i) rowSums(df[i]))), myGroups)

返回

dfNew
  a  b
1 3  9
2 5 11
3 7 13

它比@ psidom的答案要长一点,但应该非常直接。在第二行中,lapply用于辅助以应用which来查找每个组元素的列位置并返回列表中的位置。在第三行中,lapplyrowSums应用于设置的每个组并返回一个列表。此列表将转换为带data.frame的data.frame,并使用setNames为列名称。