R表与变量x级别

时间:2017-02-03 14:45:07

标签: r summarize

我有一个包含多个变量的数据框,每个变量的值都是TRUE,FALSE或NA。我正在尝试总结这些数据,但是可以按照我想要的方式工作。

SKLabelNode

我正在尝试总结各个群体的数据:

names <- c("n1","n2","n3","n4","n5","n6")
groupname <- c("g1","g2","g3","g4","g4","g4")
var1 <- c(TRUE,TRUE,NA,FALSE,TRUE,NA)
var2 <- c(FALSE,TRUE,NA,FALSE,TRUE,NA)
var3 <- c(FALSE,TRUE,NA,FALSE,TRUE,NA)
df <- data.frame(names,groupname,var1,var2,var3)

我可以G4 TRUE FALSE NA var1 3 1 2 var2 2 2 2 var3 2 2 2 单独执行这些操作,但我试图在一张表中完成所有操作。有什么建议吗?

2 个答案:

答案 0 :(得分:2)

使用dplyr

library(dplyr)
 df %>% gather("key", "value", var1:var3) %>% 
        group_by(key) %>% 
        summarise(true = sum(value==TRUE, na.rm=T),
                  false = sum(!value, na.rm=T),
                  missing = sum(is.na(value)))

#    key  true false missing
#1  var1     3     1       2
#2  var2     2     2       2
#3  var3     2     2       2

答案 1 :(得分:1)

在基础R中,您可以使用table来获取计数,lapply来运行变量,使用do.call将结果放在一起。 [的次要子集会根据需要对列进行排序。

do.call(rbind, lapply(df[3:5], table, useNA="ifany"))[, c(2,1,3)]
     TRUE FALSE <NA>
var1    3     1    2
var2    2     2    2
var3    2     2    2

如果每个变量都具有所有级别(TRUE,FALSE,NA),这将起作用。如果缺少其中一个级别,您可以告诉table通过向其添加因子变量来为其填充0计数。 这是一个例子。

# expand data set
df$var4 <- c(TRUE, NA)

do.call(rbind, lapply(df[3:6],
                 function(i) table(factor(i, levels=c(TRUE, FALSE, NA)),
                                   useNA="ifany")))[, c(2,1,3)]

     FALSE TRUE <NA>
var1     1    3    2
var2     2    2    2
var3     2    2    2
var4     0    3    3