数据集示例:在这种情况下,我想标识ID#02002075,因为具有该ID的两个条目中的每个条目都有一个DOB
id dob
00000745 19150406
00000745 19150406
00102316 19231110
00102316 19231110
02002075 19450506
02002075 19350107
我有一个大数据集,目前专注于两列。一个是ID号,另一个是DOB。多个条目有一些重复的ID号。但是,某些条目具有相同的ID号,但DOB不同。我需要找出这些情况。
这为我提供了所有重复ID号的数据表,但是我需要帮助弄清楚如何识别具有不同DOB的所有条目
d <- read_delim('data_headers_MS.txt', delim='\t'); dim(d)
x <- d[duplicated(d$id), ]; dim(x)
head(x)
ss <- x$id[x$id!='999999999']; length(ss)
ss <- unique(ss); length(ss)
y <- subset(d, d$id %in% ss, select=c(id, soc.sec, dob, name.last, name.first, dx.age)); dim(y)
head(y)
y <- y[order(y$id), ]
答案 0 :(得分:0)
library(dplyr)
d %>%
group_by(id) %>%
summarize(distinct_dob = length(unique(dob))) %>%
filter(distinct_dob > 1) %>%
ungroup()