我正在尝试将一个表中包含的手机信号塔ID与手机信号塔ID的位置(在lat长)中的主表匹配。位置表中的ID格式与第一个表中的格式不同,我尝试使用agrep()
进行模糊匹配。举个例子,假设我想要匹配的ID是:
x <- c("405-800-125-39883")
位于位置表中的ID样本:
y <- c("405-810-1802-19883", "405-810-2101-29883", "405-810-1401-31883",
"405-810-5005-49883","125-39883","405-810-660-39883")
然后我使用agrep()
与max.distance
的不同组合:
agrep(x,y,max.distance=0.3,value=TRUE)
返回:
[1] "405-810-1802-19883" "405-810-2101-29883" "405-810-1401-31883" "405-810-5005-49883"
[5] "405-810-660-39883"
而我真正追求的价值是"125-39883"
我还尝试了stringdist_join()
包中的stringdist
函数,并将其应用于不同max_dist
的两个数据框,但没有成功。基本上我正在寻找的是在最后一个连字符之后的完美匹配,然后在第二个连字符上的数字上进行匹配,依此类推。有没有办法做到这一点?
答案 0 :(得分:0)
您可以向量化agrep
以便能够使用y的所有值作为模式。
你的目标是将整个y作为x的一部分。因此,您的模式应为y而不是x
names(unlist(Vectorize(agrep)(y,x)))
[1] "125-39883"
虽然我们可以将adist
与参数partial=TRUE
一起使用,以便它可以完全执行agrep
所做的事情:
y[which.min(c(adist(y,x,partial = T)))]
[1] "125-39883"
如果x
是向量而y
也是向量,则您宁愿使用adist
而不是agrep
。 agrep
的所有参数都包含在adist
中。请查看?adist
了解详情。
在评论中提出新问题,你可以这样做:
w=adist(y,x,partial=T)
z=setNames(nchar(sub(".*?(M*)$","\\1",c(attr(adist(y,x,counts=T),"trafos")))),y)
names(which.max(z[which(min(w)==w)]))
[1] "126-39883"