使用dplyr汇总R中未知的列数

时间:2016-08-02 14:10:20

标签: r dplyr summarize

我有以下data.frame(df)

ID1 ID2 Col1 Col2 Col3 Grp
A   B   1    3    6    G1
C   D   3    5    7    G1
E   F   4    5    7    G2
G   h   5    6    8    G2

我想要实现的目标如下: - 由Grp组,很容易 - 然后进行汇总,以便对每个组进行求和,并使用包含所有ID1和ID2的字符串创建列

这将是这样的:

df %>% 
   group_by(Grp) %>% 
      summarize(ID1s=toString(ID1), ID2s=toString(ID2), Col1=sum(Col1), Col2=sum(Col2), Col3=sum(Col3))

一切都很好whae我知道列的数量(Col1,Col2,Col3),但我希望能够实现它,以便它可以用于已知且始终命名为相同ID1,ID2的数据帧,Grp以及任何数量未知名称的附加数字列。

有没有办法在dplyr中完成。

2 个答案:

答案 0 :(得分:4)

  

我希望能够实现它,以便它可以用于已知且始终命名为相同ID1,ID2,Grp以及任何数量的具有未知名称的其他数字列的数据框。

您可以先覆盖ID列,然后按它们分组:

DF %>% 
  group_by(Grp) %>% mutate_each(funs(. %>% unique %>% sort %>% toString), ID1, ID2) %>% 
  group_by(ID1, ID2, add=TRUE) %>% summarise_each(funs(sum))

# Source: local data frame [2 x 6]
# Groups: Grp, ID1 [?]
# 
#     Grp   ID1   ID2  Col1  Col2  Col3
#   (chr) (chr) (chr) (int) (int) (int)
# 1    G1  A, C  B, D     4     8    13
# 2    G2  E, G  F, h     9    11    15

我认为你想要在折叠成字符串之前进行统一和排序,所以我已经添加了这些步骤。

答案 1 :(得分:0)

使用数据表,您可以尝试以下方法:

   setDT(df)
   sd_cols=3:(ncol(df)-1)
   merge(df[ ,.(toString(ID1), toString(ID2)), by = Grp],  df[ , c(-1,-2), with = F][ , lapply(.SD, sum), by = Grp],by = "Grp")