Question

目标：清理一个数据框，其中包含一个列（让我们称之为v1），每个单元格中包含一个或（通常）多个值。我想根据v1中单元格中包含的值生成多个二进制变量（例如：v1_1，v1_2，v1_3）。（现实：我有一个来自其他地方的非常大，丑陋的excel数据集，其中许多单元格具有多个值，并且希望有效地将它们排序为二进制列，理想情况下使用tidyverse工具，但基础也适用）。

可重复的例子：

df <- data.frame(caseID = c(1:5),
                 v1 = c(2, 1, "1,3", 1, "2, 3"))
df
desired_df <- data.frame(caseID = c(1:5),
                      v1_1 = c(0, 1, 1, 1, 0),
                      v1_2 = c(1, 0, 0, 0, 1),
                      v1_3 = c(0, 0, 1, 0, 1))
desired_df

Answer 1

使用dplyr和tidyr的解决方案。

library(dplyr)
library(tidyr)


df2 <- df %>%
  separate_rows(v1) %>%
  mutate(Value = 1) %>%
  spread(v1, Value, fill = 0) %>%
  rename_at(vars(-caseID), funs(paste0("v1_", .)))
df2 
#   caseID v1_1 v1_2 v1_3
# 1      1    0    1    0
# 2      2    1    0    0
# 3      3    1    0    1
# 4      4    1    0    0
# 5      5    0    1    1

将具有多个值的列转换为二进制变量

1 个答案: