我正在尝试将数据集中的字符串与jaro距离进行匹配。问题是我得到了带有空格的字符串作为匹配。这是数据:
df1 <- data.frame(ID1=c("london.inc","USA","UK","ball"," "),ID2=c("london.in","US","UKS","bull"," "), x=c(1:5))
library(stringdist)
df1$jwdist<-stringdist(df1$ID1,df1$ID2,method='jw',useBytes=TRUE,p=0)
y <- subset(df1,df1$jwdist<.2)
ID1 ID2 x jwdist
1 london.inc london.in 1 0.03333333
2 USA US 2 0.11111111
3 UK UKS 3 0.11111111
4 ball bull 4 0.16666667
5 5 0.00000000
有没有办法可以处理白色空间的匹配?我期待这样的输出。
ID1 ID2 x jwdist
1 london.inc london.in 1 0.03333333
2 USA US 2 0.11111111
3 UK UKS 3 0.11111111
4 ball bull 4 0.16666667