R中的处理调查多选数据

时间:2016-04-10 19:03:07

标签: r count missing-data frequency-distribution

我需要分析调查数据以获得多问题变量的频率。我正在使用this R package

我知道我需要使用' multi.split'函数以创建我将使用的变量。但我需要知道如何使它能够引用不在数据集中的答案,这意味着答案是原始问题的一部分,但在调查期间没有被选中,因此应该显示值为0。

实施例: 我有以下可通过的答案:

"red", "blue", "green" and "yellow" 

和我的数据(如示例中所示):

v <- c("red/blue","green","red/green","blue/red")

当我运行此命令时:

multi.table(multi.split(v))

我得到以下结果:

        n     %multi
v.blue  2     50
v.red   3     75
v.green 2     50

但我想得到:

         n     %multi
v.blue   2     50
v.red    3     75
v.green  2     50
v.yellow 0      0

关于我该怎么做的任何想法?

1 个答案:

答案 0 :(得分:0)

我之前从未使用过这个包,但我会试一试。

函数multi-split()生成一个data.frame,因此如果要在获取统计信息之前添加另一列,可以执行以下操作:

v <- c("red/blue","green","red/green","blue/red")
a <- multi.split(v)
a$v.yellow <-  0
multi.table(a)


## > multi.table(a)
## n %multi
## v.blue   2     50
## v.red    3     75
## v.green  2     50
## v.yellow 0      0

<强>更新 更通用的版本就是这样的。

1. wanted.data是您在输出中始终需要的列名称的字符。  2. col.to.add是不在a data.frame中的列。  3.然后将0分配给不存在的列。  4.最后对列进行排序,以便我们始终按相同顺序排列。

library(questionr)
v <- c("red/blue","green","red/green","blue/red")
wanted_data <-  c("v.red","v.blue","v.green","v.yellow")

 a <- multi.split(v)
 col.to.add<- wanted_data[!(wanted_data%in% colnames(a) )]
 a[col.to.add] <- 0
 a[,order(colnames(a))]
 multi.table(a)

## > multi.table(a)
## n %multi
## v.blue   2     50
## v.red    3     75
## v.green  2     50
## v.yellow 0      0