如何识别并创建具有不同的variable2值的重复/相同的variable1值表?

时间:2019-07-12 12:11:25

标签: r

数据集示例:在这种情况下,我想标识ID#02002075,因为具有该ID的两个条目中的每个条目都有一个DOB

id          dob    
00000745  19150406   
00000745  19150406
00102316  19231110    
00102316  19231110   
02002075  19450506  
02002075  19350107 

我有一个大数据集,目前专注于两列。一个是ID号,另一个是DOB。多个条目有一些重复的ID号。但是,某些条目具有相同的ID号,但DOB不同。我需要找出这些情况。

这为我提供了所有重复ID号的数据表,但是我需要帮助弄清楚如何识别具有不同DOB的所有条目

d <- read_delim('data_headers_MS.txt', delim='\t'); dim(d)
x <- d[duplicated(d$id), ]; dim(x)
head(x)

ss <- x$id[x$id!='999999999']; length(ss)


ss <- unique(ss); length(ss) 

y <- subset(d, d$id %in% ss, select=c(id, soc.sec, dob, name.last, name.first, dx.age)); dim(y)

head(y)

y <- y[order(y$id), ]

1 个答案:

答案 0 :(得分:0)

library(dplyr)

d %>% 
  group_by(id) %>% 
  summarize(distinct_dob = length(unique(dob))) %>% 
  filter(distinct_dob > 1) %>% 
  ungroup()