我有两个大向量,例如:
set.seed(17)
vec1 <- paste0(sample(1:10, 10000000, replace = T), "_", sample(1:1000000000, 10000000))
vec2 <- paste0(sample(1:10, 1000000, replace = T), "_", sample(1:1000000000, 1000000))
我需要确定vec2中的元素在vec1中的比例。我目前正在使用:
system.time({
prop <- table(vec2 %in% vec1)[[2]]/length(vec2)
})
但是,我将其应用到的实际向量非常大(最多约2,000,000,000个元素),因此性能非常重要。有谁能建议我可以减少运行时间?
答案 0 :(得分:0)
这里有一些时间选择,还使用@Sotos和@Henrik的评论建议进行比较。
library(microbenchmark)
library(data.table)
microbenchmark(a1 = table(vec2 %in% vec1)[[2]]/length(vec2) ,
a2 = sum(vec2 %in% vec1)/length(vec2),
a3 = sum(!is.na(match(vec2, vec1)))/length(vec2),
a4 = length(intersect(vec2, vec1)) / length(vec2),
a5 = sum(vec2 %chin% vec1)/length(vec2))
#Unit: milliseconds
# expr min lq mean median uq max neval
# a1 1269.84 1340.468 1667.251 1410.252 2191.750 2535.723 100
# a2 1022.26 1086.938 1284.692 1124.565 1152.516 2286.028 100
# a3 1023.59 1125.517 1387.592 1148.337 1852.645 3849.555 100
# a4 1022.84 1088.056 1291.582 1122.846 1173.768 2277.901 100
# a5 449.19 453.146 462.781 454.365 458.178 620.996 100
很显然,Henrik的解决方案是最快的。
数据
set.seed(17)
vec1 <- paste0(sample(1:10, 10000000, replace = T), "_",
sample(1:1000000000, 10000000))
vec2 <- paste0(sample(1:10, 1000000, replace = T), "_",
sample(1:1000000000, 1000000))