我有两个大型数据集,一个大约五十万个记录,另一个大约70K。这些数据集有地址。如果较小数据集中的任何地址存在于大数据集中,我想匹配。正如您所想象的那样,地址可以用不同的方式和不同的情况编写,因此当它应该匹配时会看到没有匹配并且当它不应该匹配时存在匹配时非常烦人。我做了一些研究并找出了可以使用的包stringdist。然而,我被困住了,我觉得我没有充分发挥它的能力,对此有一些建议会有所帮助。
下面是一个示例虚拟数据以及我为解释情况而创建的代码
onScanCompleted(String, Uri)
如果你看到输出,它会给我df1中address_match下的匹配。如果我在主数据上应用相同的代码,则代码仍在运行30个小时。虽然我已经转换为data.table。不知道如何加快速度。
我正在进一步阅读并遇到了stringdist矩阵。这似乎更有帮助,我可以将地址分成空格并检查每个地址列表中每个单词的存在,并根据最大匹配,可以创建匹配摘要。但是我不太擅长循环。如何从每个单词的较小文件中循环每个地址,并检查较大文件中的单个地址并创建匹配矩阵?任何帮助!!
答案 0 :(得分:0)
我有一个不需要data.table
的解决方案,但如果该集合很大,则可以使用package:parallel
rbind.pages(
parallel::mclapply(Address1, function(i){
data.frame(
src = i,
match = Address2[which.min(adist(i, Address2))]
)
}, mc.cores = parallel::detectCores() - 2)) %>%
select(`src (Address1)`= 1, `match (Address2)` = 2)
然后给出输出解决方案:
src (Address1) match (Address2)
1 786, GALI NO 5, XYZ 786, GALI NO 4 XYZ
2 rambo, 45, strret 4, atlast, pqr del, 546, strret2, towards east, pqr
3 23/4, 23RD FLOOR, STREET 2, ABC-E, PQR 23/4, STREET 2, PQR
4 45-B, GALI NO5, XYZ 45B, GALI NO 5, XYZ
5 HECTIC, 99 STREET, PQR 23/4, STREET 2, PQR
我意识到如果没有看到距离计算,这可能不是很有用,这样你就可以调整你的需求;所以我将数据复制到更大的随机集中,然后修改函数以显示字符串距离计算和处理时间
rand_addy_one <- rep(Address1, 1000)[sample(1:1000, 1000)]
rand_addy_two <- rep(Address2, 3000)[sample(1:3000, 3000)]
system.time({
test_one <<- rbind.pages(parallel::mclapply(rand_addy_one, function(i) {
calc <- as.data.frame(drop(attr(adist(i, rand_addy_two, counts = TRUE), "counts")))
calc$totals <- (rowSums(calc))
calc %>% mutate(src = i, target = rand_addy_two) %>%
filter(totals == min(totals))
}, mc.cores = parallel::detectCores() - 2)) %>%
select(`source Address1` = src, `target Address2(matched)` = target,
insertions = ins, deletions = del, substitutions = sub,
total_approx_dist = totals)
})
user system elapsed
24.940 1.480 3.384
> nrow(test_one)
[1] 600000
现在反转并将较大的集应用于较小的集:
system.time({
test_two <<- rbind.pages(parallel::mclapply(rand_addy_two, function(i) {
calc <- as.data.frame(drop(attr(adist(i, rand_addy_one, counts = TRUE), "counts")))
calc$totals <- (rowSums(calc))
calc %>% mutate(src = i, target = rand_addy_one) %>%
filter(totals == min(totals))
}, mc.cores = parallel::detectCores() - 2)) %>%
select(`source Address2` = src, `target Address1(matched)` = target,
insertions = ins, deletions = del, substitutions = sub,
total_approx_dist = totals)
})
user system elapsed
27.512 1.280 4.077
nrow(test_two)
[1] 720000