我有一个包含多个变量的数据框,每个变量的值都是TRUE,FALSE或NA。我正在尝试总结这些数据,但是可以按照我想要的方式工作。
SKLabelNode
我正在尝试总结各个群体的数据:
names <- c("n1","n2","n3","n4","n5","n6")
groupname <- c("g1","g2","g3","g4","g4","g4")
var1 <- c(TRUE,TRUE,NA,FALSE,TRUE,NA)
var2 <- c(FALSE,TRUE,NA,FALSE,TRUE,NA)
var3 <- c(FALSE,TRUE,NA,FALSE,TRUE,NA)
df <- data.frame(names,groupname,var1,var2,var3)
我可以G4 TRUE FALSE NA
var1 3 1 2
var2 2 2 2
var3 2 2 2
单独执行这些操作,但我试图在一张表中完成所有操作。有什么建议吗?
答案 0 :(得分:2)
使用dplyr
library(dplyr)
df %>% gather("key", "value", var1:var3) %>%
group_by(key) %>%
summarise(true = sum(value==TRUE, na.rm=T),
false = sum(!value, na.rm=T),
missing = sum(is.na(value)))
# key true false missing
#1 var1 3 1 2
#2 var2 2 2 2
#3 var3 2 2 2
答案 1 :(得分:1)
在基础R中,您可以使用table
来获取计数,lapply
来运行变量,使用do.call
将结果放在一起。 [
的次要子集会根据需要对列进行排序。
do.call(rbind, lapply(df[3:5], table, useNA="ifany"))[, c(2,1,3)]
TRUE FALSE <NA>
var1 3 1 2
var2 2 2 2
var3 2 2 2
如果每个变量都具有所有级别(TRUE,FALSE,NA),这将起作用。如果缺少其中一个级别,您可以告诉table
通过向其添加因子变量来为其填充0计数。
这是一个例子。
# expand data set
df$var4 <- c(TRUE, NA)
do.call(rbind, lapply(df[3:6],
function(i) table(factor(i, levels=c(TRUE, FALSE, NA)),
useNA="ifany")))[, c(2,1,3)]
FALSE TRUE <NA>
var1 1 3 2
var2 2 2 2
var3 2 2 2
var4 0 3 3