我正在尝试进行一些模糊匹配(在R中),并希望制定一些关于允许多少连续变化的规则。例如,如果我使用Levenshtein距离并且距离大于2,我想排除这两个变化彼此相邻的任何匹配。
一个例子:
如果我们试图匹配字符串" James Madison",
- " Jame Madisan"会产生一个距离= 2的匹配
- " Jans Madison"也会有距离= 2但由于连续2次变化而不会产生命中(" n"需要更改为" m"以及" e"必须插入" s"在"詹姆斯")