基于R中的Column对数据求和

时间:2014-11-08 12:09:42

标签: r sum cluster-analysis

我是R的新手,我有一个看起来像这样的数据集(实际数据是10K乘5K所以我真的需要一个捷径):

Cluster    Item1   Item2    Item 3

 1           1      2         2
 1           3      1         1
 1           1      3         0 
 2           3      2         0  
 2           0      0         2 
 2           4      2         2
 3           0      1         1  
 3           1      1         2

我想按群集添加每个数据集的列,这样看起来就像这样:

Cluster    Item1   Item2    Item 3

    1        5      6         3
    2        7      4         4
    3        1      2         3 

我想用某一栏来总结它们。谢谢你的推荐。

4 个答案:

答案 0 :(得分:5)

您可以使用aggregatedat是数据框的名称):

aggregate(dat[-1], dat["Cluster"], sum)

#   Cluster Item1 Item2 Item3
# 1       1     5     6     3
# 2       2     7     4     4
# 3       3     1     2     3

使用data.table

library(data.table)
setDT(dat)[ , lapply(.SD, sum), by = Cluster]
#    Cluster Item1 Item2 Item3
# 1:       1     5     6     3
# 2:       2     7     4     4
# 3:       3     1     2     3

使用dplyr

dat %>%
  group_by(Cluster) %>%
  summarise_each(funs(sum))
#   Cluster Item1 Item2 Item3
# 1       1     5     6     3
# 2       2     7     4     4
# 3       3     1     2     3

答案 1 :(得分:1)

感谢您的回答,我也使用了这个优点并且效果很好:

 aggregate(. ~ Cluster, data=dat, FUN=sum)



#   Cluster Item1 Item2 Item3
# 1       1     5     6     3
# 2       2     7     4     4
# 3       3     1     2     3

答案 2 :(得分:0)

尝试:

> sapply(ddf[-1], function(x) tapply(x,ddf$Cluster,sum))
  Item1 Item2 Item3
1     5     6     3
2     7     4     4
3     1     2     3

答案 3 :(得分:0)

如果要对除分组以外的所有变量求和,请在 dplyr 中使用 across

df <- read.table(text = "Cluster    Item1   Item2   Item3
1   1   2   2
1   3   1   1
1   1   3   0
2   3   2   0
2   0   0   2
2   4   2   2
3   0   1   1
3   1   1   2", header = T)

df %>% group_by(Cluster) %>% summarise(across(everything(), ~sum(.)))

# A tibble: 3 x 4
  Cluster Item1 Item2 Item3
    <int> <int> <int> <int>
1       1     5     6     3
2       2     7     4     4
3       3     1     2     3