Question

数据集示例：在这种情况下，我想标识ID＃02002075，因为具有该ID的两个条目中的每个条目都有一个DOB

id          dob    
00000745  19150406   
00000745  19150406
00102316  19231110    
00102316  19231110   
02002075  19450506  
02002075  19350107

我有一个大数据集，目前专注于两列。一个是ID号，另一个是DOB。多个条目有一些重复的ID号。但是，某些条目具有相同的ID号，但DOB不同。我需要找出这些情况。

这为我提供了所有重复ID号的数据表，但是我需要帮助弄清楚如何识别具有不同DOB的所有条目

d <- read_delim('data_headers_MS.txt', delim='\t'); dim(d)
x <- d[duplicated(d$id), ]; dim(x)
head(x)

ss <- x$id[x$id!='999999999']; length(ss)


ss <- unique(ss); length(ss) 

y <- subset(d, d$id %in% ss, select=c(id, soc.sec, dob, name.last, name.first, dx.age)); dim(y)

head(y)

y <- y[order(y$id), ]

Answer 1

library(dplyr)

d %>% 
  group_by(id) %>% 
  summarize(distinct_dob = length(unique(dob))) %>% 
  filter(distinct_dob > 1) %>% 
  ungroup()

如何识别并创建具有不同的variable2值的重复/相同的variable1值表？

1 个答案: