我有一个超过150万行的大型数据集,来自600k个独特主题,因此许多主题都有多行。我试图找到其中一个主题输入错误的DOB的情况。
test <- data.frame(
ID=c(rep(1,3),rep(2,4),rep(3,2)),
DOB = c(rep("2000-03-01",3), "2000-05-06", "2002-05-06",
"2000-05-06", "2000-05-06", "2004-04-06", "2004-04-06")
)
> test
ID DOB
1 1 2000-03-01
2 1 2000-03-01
3 1 2000-03-01
4 2 2000-05-06
5 2 2002-05-06
6 2 2000-05-06
7 2 2000-05-06
8 3 2004-04-06
9 3 2004-04-06
我所追求的是一些代码,基本上确定'2'有错误。我可以想一些关于使用for循环的方法,但这在计算上效率低下。
由于
答案 0 :(得分:6)
使用基本功能,最快的解决方案就是:
> x <- unique(test[c("ID","DOB")])
> x$ID[duplicated(x$ID)]
[1] 2
时间安排:
n <- 1000
system.time(replicate(n,{
x <- unique(test[c("ID","DOB")])
x$ID[duplicated(x$ID)]
}))
user system elapsed
0.70 0.00 0.71
system.time(replicate(n,{
DOBError(data)
}))
user system elapsed
1.69 0.00 1.69
system.time(replicate(n,{
zzz <- aggregate(DOB ~ ID, data = test, FUN = function(x) length(unique(x)))
zzz[zzz$DOB > 1 ,]
}))
user system elapsed
4.23 0.02 4.27
system.time(replicate(n,{
zz <- ddply(test, "ID", summarise, dups = length(unique(DOB)))
zz[zz$dups > 1 ,]
}))
user system elapsed
6.63 0.01 6.64
答案 1 :(得分:5)
使用plyr
的一种方法:
library(plyr)
zz <- ddply(test, "ID", summarise, dups = length(unique(DOB)))
zz[zz$dups > 1 ,]
如果基地R是您的事,请使用aggregate()
zzz <- aggregate(DOB ~ ID, data = test, FUN = function(x) length(unique(x)))
zzz[zzz$DOB > 1 ,]
答案 2 :(得分:3)
如此大量我提出了一些其他的解决方案,基于比较和使用R中向量运算的力量:
test <- test[order(test$ID), ]
n <- nrow(test)
ind <- test$ID[-1] == test$ID[-n] & test$DOB[-1] != test$DOB[-n]
unique(test$ID[c(FALSE,ind)])
对于test
,数据时序与Joris idea类似,但对于大数据:
test2 <- data.frame(
ID = rep(1:600000,3),
DOB = "2000-01-01",
stringsAsFactors=FALSE
)
test2$DOB[sample.int(nrow(test2),5000)] <- "2000-01-02"
system.time(resA<-{
x <- unique(test2[c("ID","DOB")])
x$ID[duplicated(x$ID)]
})
# user system elapsed
# 7.44 0.14 7.58
system.time(resB <- {
test2 <- test2[order(test2$ID), ]
n <- nrow(test2)
ind <- test2$ID[-1] == test2$ID[-n] & test2$DOB[-1] != test2$DOB[-n]
unique(test2$ID[c(FALSE,ind)])
})
# user system elapsed
# 0.76 0.04 0.81
all.equal(sort(resA),sort(resB))
# [1] TRUE
答案 3 :(得分:2)
DOBError <- function(data){
count <- unlist(lapply(split(test, test$ID),
function(x)length(unique(x$DOB))))
return(names(count)[count > 1])
}
DOBError(data)
[1] "2"