以类似字符串开头的不同列组的R总和

时间:2015-05-21 20:59:32

标签: r rowsum

我对R很新,这是我第一次敢在这里提问。

我正在使用具有Likert音阶的数据集,我希望在不同的列组中对行进行求和,这些列共享其名称中的第一个字符串。

下面我构建了一个只有2行的数据框来说明我遵循的方法,但我想收到有关如何编写更有效的方法的反馈。

df <- as.data.frame(rbind(rep(sample(1:5),4),rep(sample(1:5),4)))

var.names <- c("emp_1","emp_2","emp_3","emp_4","sat_1","sat_2"
           ,"sat_3","res_1","res_2","res_3","res_4","com_1",
           "com_2","com_3","com_4","com_5","cap_1","cap_2",
           "cap_3","cap_4")

names(df) <- var.names

所以,我所做的是使用grep函数,以便能够将以某些字符串开头的指定变量的行相加并将它们存储在一个新变量中。但我必须为每个变量编写一行新的代码。

df$emp_t <- rowSums(df[, grep("\\bemp.", names(df))])
df$sat_t <- rowSums(df[, grep("\\bsat.", names(df))])
df$res_t <- rowSums(df[, grep("\\bres.", names(df))])
df$com_t <- rowSums(df[, grep("\\bcom.", names(df))])
df$cap_t <- rowSums(df[, grep("\\bcap.", names(df))])

但是数据集中有更多的变量,我想知道是否只有一行代码可以实现这一点。例如,某种方法可以将以相同字符串开头的变量组合在一起然后应用行函数。

提前致谢!

3 个答案:

答案 0 :(得分:3)

一种可能的解决方案是转置df并使用基本R rowsum函数计算正确列的总和(使用set.seed(123)

cbind(df, t(rowsum(t(df), sub("_.*", "_t", names(df)))))
#   emp_1 emp_2 emp_3 emp_4 sat_1 sat_2 sat_3 res_1 res_2 res_3 res_4 com_1 com_2 com_3 com_4 com_5 cap_1 cap_2 cap_3 cap_4 cap_t
# 1     2     4     5     3     1     2     4     5     3     1     2     4     5     3     1     2     4     5     3     1    13
# 2     1     3     4     2     5     1     3     4     2     5     1     3     4     2     5     1     3     4     2     5    14
#   com_t emp_t res_t sat_t
# 1    15    14    11     7
# 2    15    10    12     9

答案 1 :(得分:2)

同意MrFlick您可能希望以长格式显示数据(请参阅reshape2tidyr),但要回答您的问题:

cbind(
  df, 
  sapply(split.default(df, sub("_.*$", "_t", names(df))), rowSums)
)

会做的伎俩

答案 2 :(得分:1)

如果您将数据放入tidy format,那么从长远来看,您会感觉更好。问题是数据是宽而不是长格式。变量名称,例如emp_1,实际上是两个独立的数据:人的类和人的ID号(或类似的东西)。这是dplyr和tidyr问题的解决方案。

library(dplyr)
library(tidyr)
df %>% 
  gather(key, value) %>% 
  extract(key, c("class", "id"), "([[:alnum:]]+)_([[:alnum:]]+)") %>% 
  group_by(class) %>% 
  summarize(class_sum = sum(value))

首先,我们使用gather()将数据框从宽格式转换为长格式。然后,我们将值emp_1拆分为单独的列classid以及extract()。最后,我们按类分组并对每个类中的值求和。结果:

Source: local data frame [5 x 2]

  class class_sum
1   cap        26
2   com        30
3   emp        23
4   res        22
5   sat        19