Question

我有一个包含大约200列的数据框，其中我希望将表格分组前10个左右，这些是因子并将其余列相加。

我列出了我想要分组的所有列名，以及我要聚合的所有列的列表。

我正在寻找的输出格式需要是具有相同cols数的相同数据帧，只是组合在一起。

是否有使用包data.table，plyr或其他任何内容的解决方案？

Answer 1

DT[, lapply(.SD,sum), by=list(col1,col2,col3,...)]

或

DT[, lapply(.SD,sum), by=colnames(DT)[1:10]]

其中.SD是（D）ata 的（S）ubset，不包括组列。（旁白：如果您需要一般性地引用组列，它们位于.BY。）

Answer 2

这似乎是ddply的任务（我使用plyr附带的'baseball'数据集）：

library(plyr)
groupColumns = c("year","team")
dataColumns = c("hr", "rbi","sb")
res = ddply(baseball, groupColumns, function(x) colSums(x[dataColumns]))
head(res)

这为每个groupColumns提供了dataColumns中指定的列的总和。

Answer 3

在基地R中，这将是......

aggregate( as.matrix(df[,11:200]), as.list(df[,1:10]), FUN = sum)

修改：自从我写这篇文章以来，聚合函数已经走了很长的路。以上铸件都不是必需的。

aggregate( df[,11:200], df[,1:10], FUN = sum )

有很多方法可以写这个。假设前10列名为a1到a10，我喜欢以下内容，即使它很详细。

aggregate(. ~ a1 + a2 + a3 + a4 + a5 + a6 + a7 + a8 + a9 + a10, data = dat, FUN = sum)

（您可以使用粘贴来构建公式并使用formula）

Answer 4

dplyr方式是：

library(dplyr)
df %>%
  group_by(col1, col2, col3) %>%
  summarise_each(funs(sum))

您可以使用summarise_each帮助文件中提到的特殊功能，在?dplyr::select中进一步指定要汇总或排除的列。

Answer 5

使用plyr :: ddply：

library(plyr)
ddply(dtfr, .(name1, name2, namex), numcolwise(sum))

Answer 6

让我们考虑这个示例：

df <- data.frame(a = 'a', b = c('a', 'a', 'b', 'b', 'b'), c = 1:5, d = 11:15,
                 stringsAsFactors = TRUE)

_all，_at和_if动词现已被取代，我们现在使用across对所有因子列进行分组，并对所有其他列求和，我们可以这样做：

library(dplyr)

df %>% 
   group_by(across(where(is.factor))) %>% 
   summarise(across(everything(), sum))

#  a     b         c     d
#  <fct> <fct> <int> <int>
#1 a     a         3    23
#2 a     b        12    42

要将所有因子列和数字列求和分组：

df %>% 
  group_by(across(where(is.factor))) %>% 
  summarise(across(where(is.numeric), sum))

我们也可以按位置执行此操作，但必须注意数字，因为它不计算分组列。

df %>% group_by(across(1:2)) %>% summarise(across(1:2, sum))

Answer 7

使用dplyr执行此操作的另一种方法是通用的（不需要列列表）将是：

df %>% group_by_if(is.factor) %>% summarize_if(is.numeric,sum,na.rm = TRUE)

按多列分组并汇总其他多列

7 个答案: