如何获得两个向量之间匹配的元素的比例?

时间:2019-05-02 06:50:44

标签: r performance

我有两个大向量,例如:

set.seed(17)

vec1 <- paste0(sample(1:10, 10000000, replace = T), "_", sample(1:1000000000, 10000000))

vec2 <- paste0(sample(1:10, 1000000, replace = T), "_", sample(1:1000000000, 1000000))

我需要确定vec2中的元素在vec1中的比例。我目前正在使用:

system.time({ 

prop <- table(vec2 %in% vec1)[[2]]/length(vec2) 

})

但是,我将其应用到的实际向量非常大(最多约2,000,000,000个元素),因此性能非常重要。有谁能建议我可以减少运行时间?

1 个答案:

答案 0 :(得分:0)

这里有一些时间选择,还使用@Sotos和@Henrik的评论建议进行比较。

library(microbenchmark)
library(data.table)

microbenchmark(a1 = table(vec2 %in% vec1)[[2]]/length(vec2) , 
               a2 = sum(vec2 %in% vec1)/length(vec2), 
               a3 = sum(!is.na(match(vec2, vec1)))/length(vec2), 
               a4 = length(intersect(vec2, vec1)) / length(vec2), 
               a5 = sum(vec2 %chin% vec1)/length(vec2))

#Unit: milliseconds
# expr     min       lq     mean   median       uq      max neval
#   a1 1269.84 1340.468 1667.251 1410.252 2191.750 2535.723   100
#   a2 1022.26 1086.938 1284.692 1124.565 1152.516 2286.028   100
#   a3 1023.59 1125.517 1387.592 1148.337 1852.645 3849.555   100
#   a4 1022.84 1088.056 1291.582 1122.846 1173.768 2277.901   100
#   a5  449.19  453.146  462.781  454.365  458.178  620.996   100

很显然,Henrik的解决方案是最快的。

数据

set.seed(17)
vec1 <- paste0(sample(1:10, 10000000, replace = T), "_", 
               sample(1:1000000000, 10000000))
vec2 <- paste0(sample(1:10, 1000000, replace = T), "_", 
               sample(1:1000000000, 1000000))