stringdist_join导致NA

时间:2017-09-21 14:41:23

标签: r matching fuzzy stringdist fuzzyjoin

我正在尝试使用stringdist包来进行模糊连接,我遇到了一个我不理解的问题,但却找不到答案。 我想用“dl”方法加入这两个数据表,它产生一个NA,我完全不明白。也许你们中的一个人对此有一个解释。 代码:

library(fuzzyjoin)
test1<-as.data.frame(test1<-c("techniker"))
test2<-as.data.frame(test2<-c("technician"))
setnames(test2,1,"label")
setnames(test1,1,"label")
x <- stringdist_join(test1, test2, by = "label", mode = "left", distance_col="distance", method="dl") 

但是,如果我使用jaccard方法,则匹配:

y <- stringdist_join(test1, test2, by = "label", mode = "left", distance_col="distance", method="jaccard", q=4) 

希望任何人都能澄清。

干杯 圆顶

1 个答案:

答案 0 :(得分:3)

max_dist默认设置为2。

dl"tekniker"之间的"technician"距离超过2。

所以没有匹配。

stringdist_join(test1, test2, by = "label", mode = "left", distance_col="distance", method="dl",max_dist=5)
#     label.x label.y distance
# 1 techniker  techni        3