Question

我不确定问这个问题的最佳方法。

我想使用case_when（或if_else，如果效果更好）进行变异，以检查某个列范围内是否存在某个值。

例如在mtcars中，我想检查vs，am，gear或carb中是否有1或2列，如果有，请将新变量newVar设置为1。我可以执行以下操作：

mtcars %>%
  mutate(newVar = case_when(vs %in% c(1, 2) | am %in% c(1, 2) | gear %in% c(1, 2) | carb %in% c(1, 2) ~ 1,
                            TRUE ~ 0))

有没有更漂亮的方法？我想检查10列以上的列，所以它会很长。像这样：

mtcars %>%
  mutate(newVar = case_when(c(vs, am, gear, carb) %in% c(1, 2) ~ 1,
                            TRUE ~ 0))

Answer 1

我认为R基在这里可以很好地工作。选择要检查的列，并采用逻辑向量的逐行求和来计算newVar。

df <- mtcars 
cols <- c("vs", "am", "gear", "carb")
df$newVar <- +(rowSums(df[cols] == 1 | df[cols] == 2) > 0)

df
#                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb newVar
#Mazda RX4           21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4      1
#Mazda RX4 Wag       21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4      1
#Datsun 710          22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1      1
#Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1      1
#Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2      1
#Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1      1
#Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4      0
#Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2      1
#Merc 230            22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2      1
#Merc 280            19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4      1
#....

我们还可以使用apply进行行操作

df$newVar <- +(apply(df[cols] == 1 | df[cols] == 2, 1, any))

Answer 2

我们可以使用tidyverse选项创建列

library(dplyr)
library(purrr)
mtcars %>%
      mutate(newVar = select(., vs:carb) %>%
                        map(~ .x %in% 1:2) %>% 
                        reduce(`|`) %>% 
                        as.integer)
#.   mpg cyl  disp  hp drat    wt  qsec vs am gear carb newVar
#1  21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4      1
#2  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4      1
#3  22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1      1
#4  21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1      1
#5  18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2      1
#6  18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1      1
#7  14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4      0
#8  24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2      1
# ...

或与base R

nm1 <- c("vs", "am", "gear", "carb")
mtcars$newVar <- +(Reduce(`|`, lapply(mtcars[nm1], `%in%`, 1:2)))

使用case_when进行变异-多个LHS / RHS OR评估

2 个答案: