选择多个列并重新整形为长整数

时间:2017-03-07 16:10:50

标签: r dplyr tidyverse

我有与案件及其联系人有关的广泛数据集。 (这是一个组成的例子;真正的数据集要大得多)。

structure(list(record_id = structure(1:4, .Label = c("01-001", 
"01-002", "01-003", "01-004"), class = "factor"), place = structure(c(1L, 
2L, 1L, 1L), .Label = c("a", "b"), class = "factor"), sex = structure(c(2L, 
2L, 1L, 2L), .Label = c("F", "M"), class = "factor"), age = c(4L, 
13L, 28L, 44L), d02_1 = c(2L, 2L, NA, 2L), d02_2 = structure(c(3L, 
2L, 1L, 3L), .Label = c("", "F", "M"), class = "factor"), d02_3 = c(27L, 
16L, NA, 66L), d03_1 = c(3L, 3L, NA, 3L), d03_2 = structure(c(3L, 
3L, 1L, 2L), .Label = c("", "F", "M"), class = "factor"), d03_3 = c(14L, 
55L, NA, 12L), d04_1 = c(4L, NA, NA, NA), d04_2 = structure(c(2L, 
1L, 1L, 1L), .Label = c("", "M"), class = "factor"), d04_3 = c(7L, 
NA, NA, NA)), .Names = c("record_id", "place", "sex", "age", 
"d02_1", "d02_2", "d02_3", "d03_1", "d03_2", "d03_3", "d04_1", 
"d04_2", "d04_3"), row.names = c(NA, -4L), class = "data.frame")

其中:

  • record_id是案例的唯一标识符
  • 地方是案件居住的地方
  • 年龄是病例
  • 性是个案性

  • d02_1,d03_1,d04_1 ... d0j_1是联系人ID

  • d02_2,d03_2,d04_2 ... d0j_2是联系人的性别
  • d02_3,d03_3,d04_3 ... d0j_3是联系人的年龄

在真实数据集中,每个案例可能有很多联系人,还有更多与联系人特征相关的变量。并非所有案件都会有联系。

我想将数据集重新整形为整齐的格式,每个案例/联系人一行,即:

         id case place sex age
1    01-001    1     a   M   4
2  01-001-2    0     a   M  27
3  01-001-3    0     a   M  14
4  01-001-4    0     a   M   7
5    01-002    1     b   M  13
6  01-002-2    0     b   F  16
7  01-002-3    0     b   M  55
8    01-003    1     a   F  28
9    01-004    1     a   M  44
10 01-004-2    0     a   M  66
11 01-004-3    0     a   F  12

我想我需要创建与每个联系人相关的列名称向量(可能使用列名称上的字符匹配),按顺序选择这些列,并将它们相互追加(以及连接案例/联系人ids),但真的很难没有很多和很多代码行的复制。必须是一种更有效的方法吗?

1 个答案:

答案 0 :(得分:0)

这是你在找什么?

这是一个dplyr解决方案,由于多种原因而难看,但我认为它可以完成任务。

DF <- DF %>%
  rename_(.dots=setNames(names(.), gsub('_1','_ContactID',names(.)))) %>%
  rename_(.dots=setNames(names(.), gsub('_2','_sex',names(.)))) %>%
  rename_(.dots=setNames(names(.), gsub('_3','_age',names(.)))) %>%
  rename(d00_sex=sex,d00_age=age) %>%
  mutate(d00_ContactID=1) %>%
  gather(Var,Val,-record_id,-place) %>%
  mutate(Val =ifelse(Val=='',NA,Val)) %>%
  separate(Var,c('ContactLevel','Var'),sep='_') %>%
  spread(Var,Val) %>%
  arrange(record_id,ContactLevel) %>%
  filter(!is.na(age),!is.na(ContactID),!is.na(sex)) %>%
  mutate(age = as.numeric(age))

我首先重命名您的变量以保持清晰。 (rename_行)

接下来,我将您的案例信息变量放入一致的模式,其中案例信息是ContactID = 1。 (enamemutate行)

Gather将数据从宽变为长,但会留下一个非常难看的列并将所有数据转换为字符。 (这是触发警告的丑陋部分。)

separate将旧列名拆分为Contact ID和数据列。

spread然后再次将年龄,性别和ID打开到列中。在这一行,这些数据是你想要的,但仍然可以清理一下。

arrange不是必需的,但它会将所有记录ID放在一起。

filter也没有必要,只删除没有合同信息的行。

最后,我使用mutateage从字符转换为数字。如果你愿意,你也可以将性别转化为一个因素,也可能是联系人ID。