Question

我想删除在向量中出现多次的所有项目。具体来说，这包括字符，数字和整数向量。目前，我使用duplicated()向前和向后（使用fromLast参数）。

在R中执行此操作是否有更高计算效率（更快）的方法？下面的解决方案很简单，可以写入/读取，但执行重复搜索两次似乎效率低下。也许使用附加数据结构的基于计数的方法会更好？

示例：

d <- c(1,2,3,4,1,5,6,4,2,1)
d[!(duplicated(d) | duplicated(d, fromLast=TRUE))]
#[1] 3 5 6

相关SO帖子here和here。

Answer 1

一些时间：

set.seed(1001)
d <- sample(1:100000, 100000, replace=T)
d <- c(d, sample(d, 20000, replace=T))  # ensure many duplicates
mb <- microbenchmark::microbenchmark(
  d[!(duplicated(d) | duplicated(d, fromLast=TRUE))],
  setdiff(d, d[duplicated(d)]),
  {tmp <- rle(sort(d)); tmp$values[tmp$lengths == 1]},
  as.integer(names(table(d)[table(d)==1])),
  d[!(duplicated.default(d) | duplicated.default(d, fromLast=TRUE))],
  d[!(d %in% d[duplicated(d)])],
  { ud = unique(d); ud[tabulate(match(d, ud)) == 1L] },
  d[!(.Internal(duplicated(d, F, F, NA)) | .Internal(duplicated(d, F, T, NA)))]
)
summary(mb)[, c(1, 4)]  # in milliseconds
#                                                                                expr      mean
#1                               d[!(duplicated(d) | duplicated(d, fromLast = TRUE))]  18.34692
#2                                                       setdiff(d, d[duplicated(d)])  24.84984
#3                       {     tmp <- rle(sort(d))     tmp$values[tmp$lengths == 1] }   9.53831
#4                                         as.integer(names(table(d)[table(d) == 1])) 255.76300
#5               d[!(duplicated.default(d) | duplicated.default(d, fromLast = TRUE))]  18.35360
#6                                                      d[!(d %in% d[duplicated(d)])]  24.01009
#7                        {     ud = unique(d)     ud[tabulate(match(d, ud)) == 1L] }  32.10166
#8 d[!(.Internal(duplicated(d, F, F, NA)) | .Internal(duplicated(d,      F, T, NA)))]  18.33475

鉴于评论，让我们看看它们是否都正确？

 results <- list(d[!(duplicated(d) | duplicated(d, fromLast=TRUE))],
         setdiff(d, d[duplicated(d)]),
         {tmp <- rle(sort(d)); tmp$values[tmp$lengths == 1]},
         as.integer(names(table(d)[table(d)==1])),
         d[!(duplicated.default(d) | duplicated.default(d, fromLast=TRUE))],
         d[!(d %in% d[duplicated(d)])],
         { ud = unique(d); ud[tabulate(match(d, ud)) == 1L] },
         d[!(.Internal(duplicated(d, F, F, NA)) | .Internal(duplicated(d, F, T, NA)))])
 all(sapply(ls, all.equal, c(3, 5, 6)))
 # TRUE

Answer 2

您可以使用rle功能执行此操作：

tmp <- rle(sort(d))
res <- tmp$values[tmp$lengths == 1]

想法是在向量中找到相同值的计数。

这里有很多替代选择：Counting the number of elements with the values of x in a vector

修改

在查看基准后，@ NBATrends我开始怀疑。理论上，与原始duplicated逻辑相比，单次通过计数项目必须快2倍。

我尝试使用data.table执行此操作：

library(data.table) dt <- data.table(d) res <- dt[, count:= .N, by = d][count == 1]$d

以下是针对三种解决方案的不同样本量的基准测试（我将其简化为快速独特的方法）：

您可以看到，样本data.table的增长开始超越其他方法（2x）。

以下是重现的代码：

set.seed(1001) N <- c(3, 4, 5, 6 ,7) n <- 10^N res <- lapply(n, function(x) { d <- sample(1:x/10, 5 * x, replace=T) d <- c(d, sample(d, x, replace=T)) # ensure many duplicates dt <- data.table(d) mb <- microbenchmark::microbenchmark( "duplicated(original)" = d[!(duplicated(d) | duplicated(d, fromLast=TRUE))], "tabulate" = { ud = unique(d); ud[tabulate(match(d, ud)) == 1L] }, "data.table" = dt[, count:= .N, by = d][count == 1]$d, times = 1,unit = "ms") sm <- summary(mb)[, c(1, 4, 8)] sm$size = x return(sm) }) res <- do.call("rbind", res) require(ggplot2) ##The values Year, Value, School_ID are ##inherited by the geoms ggplot(res, aes(x = res$size, y = res$mean, colour=res$exp)) + geom_line() + scale_x_log10() + scale_y_log10() + geom_point()

Answer 3

您可以使用set operation：

d <- c(1,2,3,4,1,5,6,4,2,1)
duplicates = d[duplicated(d)]
setdiff(d, duplicates)
[1] 3 5 6

（不确定这是否比上面的代码更有效，但它看起来在概念上更清晰）

删除R中所有重复项的最快方法

3 个答案: