R - 将各种虚拟/逻辑变量从其名称转换为单个分类变量/因子

时间:2015-05-19 18:30:01

标签: r

我的问题与this onethis other one有很强的相似之处,但我的数据集略有不同,我似乎无法使这些解决方案有效。如果我误解了某些内容并且这个问题是多余的,请原谅。

我有一个这样的数据集:

df <- data.frame(
  id = c(1:5),
  conditionA = c(1, NA, NA, NA, 1),
  conditionB = c(NA, 1, NA, NA, NA),
  conditionC = c(NA, NA, 1, NA, NA),
  conditionD = c(NA, NA, NA, 1, NA)
  )
# id conditionA conditionB conditionC conditionD
# 1  1          1         NA         NA         NA
# 2  2         NA          1         NA         NA
# 3  3         NA         NA          1         NA
# 4  4         NA         NA         NA          1
# 5  5          1         NA         NA         NA

(请注意,除了这些列之外,我还有许多其他列不会受到当前操作的影响。)

因此,我发现conditionAconditionBconditionCconditionD是相互排斥的,应该更好地表示为单个分类变量,即{{1} },应该是这样的:

factor

我使用# id type # 1 1 conditionA # 2 2 conditionB # 3 3 conditionC # 4 4 conditionD # 5 5 conditionA 中的gatherunite进行了调查,但它并不符合这种情况(使用tidyr,我们会丢失来自unite的信息。变量名称)。

我尝试使用kimisc::coalescence.na,如第一个推荐答案中所建议的那样,但是1.我首先需要根据每列的名称设置一个因子值,2。它没有按预期工作,仅包括第一栏:

library(kimisc)
# first, factor each condition with a specific label
df$conditionA <- df$conditionA %>%
  factor(levels = 1, labels = "conditionA")
df$conditionB <- df$conditionB %>%
  factor(levels = 1, labels = "conditionB")
df$conditionC <- df$conditionC %>%
  factor(levels = 1, labels = "conditionC")
df$conditionD <- df$conditionD %>%
  factor(levels = 1, labels = "conditionD")

# now coalesce.na to merge into a single variable
df$type <- coalesce.na(df$conditionA, df$conditionB, df$conditionC, df$conditionD)

df
#   id conditionA conditionB conditionC conditionD       type
# 1  1 conditionA       <NA>       <NA>       <NA> conditionA 
# 2  2       <NA> conditionB       <NA>       <NA>       <NA> 
# 3  3       <NA>       <NA> conditionC       <NA>       <NA> 
# 4  4       <NA>       <NA>       <NA> conditionD       <NA> 
# 5  5 conditionA       <NA>       <NA>       <NA> conditionA

我尝试了第二个问题中的其他建议,但是找不到能给我带来预期结果的建议......

3 个答案:

答案 0 :(得分:7)

尝试:

library(dplyr)
library(tidyr)

df %>% gather(type, value, -id) %>% na.omit() %>% select(-value) %>% arrange(id)

给出了:

#  id       type
#1  1 conditionA
#2  2 conditionB
#3  3 conditionC
#4  4 conditionD
#5  5 conditionA

<强>更新

要处理您在评论中详述的案例,您可以对数据框的所需部分执行操作,然后left_join()其他列:

df %>% 
  select(starts_with("condition"), id) %>% 
  gather(type, value, -id) %>% 
  na.omit() %>% 
  select(-value) %>% 
  left_join(., df %>% select(-starts_with("condition"))) %>%
  arrange(id)

答案 1 :(得分:4)

您也可以尝试:

colnames(df)[2:5][max.col(!is.na(df[,2:5]))]
#[1] "conditionA" "conditionB" "conditionC" "conditionD" "conditionA"

如果每行只有一列的值不是NA,则上述情况有效。如果行的值可以全部为NA s,那么您可以尝试:

mat<-!is.na(df[,2:5])
colnames(df)[2:5][max.col(mat)*(NA^!rowSums(mat))]

答案 2 :(得分:1)

public class Test {
    public static void main(String[] args) {
        String x = null;
        System.out.println(x.valueOf(10)); // Calls String.valueOf(10)
    }
}