验证data.table
的密钥是否唯一的最快方法是什么?是否有比
has_unique_key <- function(.data){
uniqueN(.data, by = key(.data)) == nrow(.data)
}
为了避免开销性能成本,该函数可以假定.data
是data.table
并且具有密钥。我对验证.data
具有唯一键的性能更感兴趣;如果密钥不唯一,则速度不太重要。
小插图Keys and fast binary search based subset指出未强制执行关键唯一性:
- 不强制执行唯一性,即允许重复键值。由于行按键排序,因此键列中的任何重复项都将连续出现。
醇>
但我没有找到任何显示data.table
知道或不知道其密钥是唯一的内容。
唯一键
set.seed(1)
z <- sample(1:1e5)
DT <- data.table(z = z)
setkey(DT, z)
DT[, a := sample(letters, nrow(DT), replace = TRUE)]
DT[, b := rnorm(.N)]
microbenchmark(nrow(DT) == nrow(unique(DT, by = key(DT))),
uniqueN(DT[, key(DT), with=F]) == nrow(DT),
uniqueN(DT, by = key(DT)) == nrow(DT))
Unit: microseconds
expr min lq mean median uq max neval cld
nrow(DT) == nrow(unique(DT, by = key(DT))) 1731.766 2786.937 3678.377 3152.114 3870.119 9875.277 100 c
uniqueN(DT[, key(DT), with = F]) == nrow(DT) 777.637 1113.149 1543.786 1276.236 1614.307 3809.281 100 b
uniqueN(DT, by = key(DT)) == nrow(DT) 541.515 734.570 1123.801 825.826 1756.612 2356.406 100 a
不唯信
set.seed(1)
z <- c(1e5, sample(1:1e5))
DT <- data.table(z = z)
setkey(DT, z)
DT[, a := sample(letters, nrow(DT), replace = TRUE)]
DT[, b := rnorm(.N)]
microbenchmark(nrow(DT) == nrow(unique(DT, by = key(DT))),
uniqueN(DT[, key(DT), with=F]) == nrow(DT),
uniqueN(DT, by = key(DT)) == nrow(DT))
Unit: microseconds
expr min lq mean median uq max neval cld
nrow(DT) == nrow(unique(DT, by = key(DT))) 2925.026 4051.878 5340.941 4535.266 5464.095 12479.852 100 c
uniqueN(DT[, key(DT), with = F]) == nrow(DT) 1148.688 1515.972 1875.423 1670.627 1981.892 4843.822 100 b
uniqueN(DT, by = key(DT)) == nrow(DT) 857.450 1018.580 1332.697 1099.746 1301.685 3470.156 100 a
答案 0 :(得分:0)
确定可疑组合键是否唯一 只需测试group_by的nrow()即可返回相同的nrow()作为其输入数据帧
library(dplyr)
z <- data.frame(Repeated=sample(LETTERS[1:5], size=5, replace=TRUE),
NOT_Repeated=sample(LETTERS[1:5], size=5, replace=FALSE))
z
test_unique <- z %>% group_by(Repeated) %>% summarise(Count=n_distinct(Repeated))
test_unique
nrow(z) == nrow(test_unique)
test_unique <- z %>% group_by(NOT_Repeated) %>% summarise(Count=n_distinct(NOT_Repeated))
test_unique
nrow(z) == nrow(test_unique)