Question

我有一个数据集，其中一堆分类变量被转换为虚拟变量（所有使用的类，不是n-1），而有些则不是。我试图在一个列中重新编码它们。

例如

Q1.1    Q1.2   Q1.3   Q1.NA    Q2    Q3.1   Q3.2
 1        0     0       0      3      0       1
 0        1     0       0      4      1       0
 0        0     1       0      2      0       1

有没有简单的方法将其转换为：

Q1     Q2     Q3
1       3     2
2       4     1       
3       2     2

现在我只是使用strsplit()（因为所有dummied变量名称包含'.'）有几个循环，但感觉应该有更好的方法。有什么建议吗？

Answer 1

这是一种使用来自“reshape2”的melt和来自我的“splitstackshape”包的cSplit以及一些“data.table”乐趣的方法。我已加载dplyr，以便我们可以管理所有内容。

library(splitstackshape)
library(reshape2)
library(dplyr)

mydf %>%
  as.data.table(keep.rownames = TRUE) %>%       # Convert to data.table. Keep rownames
  melt(id.vars = "rn", variable.name = "V") %>% # Melt the dataset by rownames
  .[value > 0] %>%                              # Subset for all non-zero values
  cSplit("V", ".") %>%                          # Split the "V" column (names) by "."
  .[is.na(V_2), V_2 := value] %>%               # Replace NA values with actual values
  dcast.data.table(rn ~ V_1, value.var = "V_2") # Go wide.
#    rn Q1 Q2 Q3
# 1:  1  1  3  2
# 2:  2  2  4  1
# 3:  3  3  2  2

这是一种可能的基础R方法：

## Which columns are binary?
Bins <- sapply(mydf, function(x) {
  all(x %in% c(0, 1))
})

## Two vectors -- part after the dot and before
X <- gsub(".*\\.(.*)$", "\\1", names(mydf)[Bins])
Y <- unique(gsub("(.*)\\..*$", "\\1", names(mydf)[Bins]))

## Use `apply` to subset the X value based on the 
## logical version of the binary variable
cbind(mydf[!Bins], 
      `colnames<-`(t(apply(mydf[Bins], 1, function(z) {
        X[as.logical(z)]
      })), Y))
#   Q2 Q1 Q3
# 1  3  1  2
# 2  4  2  1
# 3  2  3  2

最后，您可以根据需要重新排序列。您可能还需要将它们转换为数字，因为在这种情况下，Q1和Q3将是因子。

Answer 2

一段时间我写了一个函数，做了这样的事情。

MultChoiceCondense<-function(vars,indata){
  tempvar<-matrix(NaN,ncol=1,nrow=length(indata[,1]))
  dat<-indata[,vars]
  for (i in 1:length(vars)){
    for (j in 1:length(indata[,1])){
      if (dat[j,i]==1) tempvar[j]=i
    }
  }
  return(tempvar)
}

如果您的数据被称为Dat，那么：

Dat$Q1<-MultChoiceCondense(c("Q1.1","Q1.2","Q1.3"),Dat)

Answer 3

另一个基础R方法

dat <- read.table(header = TRUE, text = "Q1.1    Q1.2   Q1.3   Q1.NA    Q2    Q3.1   Q3.2
 1        0     0       0      3      0       1
 0        1     0       0      4      1       0
 0        0     1       0      2      0       1")

## this will take all the unique questions; Q1, Q2, Q3; test if 
## they are dummies; and return the column if so or find which 
## dummy column is a 1 otherwise
res <- lapply(unique(gsub('\\..*', '', names(dat))), function(x) {
  tmp <- dat[, grep(x, names(dat)), drop = FALSE]
  if (ncol(tmp) == 1) unlist(tmp, use.names = FALSE) else max.col(tmp)
  })

# [[1]]
# [1] 1 2 3
# 
# [[2]]
# [1] 3 4 2
# 
# [[3]]
# [1] 2 1 2

do.call('cbind', res)
#      [,1] [,2] [,3]
# [1,]    1    3    2
# [2,]    2    4    1
# [3,]    3    2    2

R撤消虚拟变量

3 个答案: