包{stringdist}
(https://cran.r-project.org/web/packages/stringdist/stringdist.pdf)中R的字符串距离计算方法有很多种选择,非常好奇是否可以使用regex
包含用户定义的匹配项Jaro
或Jaro-Winker
距离计算中的其他一些方法?如果没有,是否有其他包提供这种功能?
例如:
对于字符串"USA Starwar Corporation"
(a)
,"US Starwar Corporation"
(b)
,"United States Starwar Corporation"
(c)
目前((a),(b)),((b),(c)),((a),(c))
之间的Jaro距离分别为{{1} }。有没有办法在计算中定义0.01449275, 0.2020202, 0.216513
次匹配"USA"
匹配"US"
,因此距离可以是"United States"
?
谢谢!