标签: string similarity fuzzy-search
我想使用字符串相似度函数进行模糊匹配。 就我而言,我在一个大列表中搜索许多单词。这些单词可能是一个完整的句子,因此在大多数情况下它们的大小会很大。
我遇到了几种相似性算法:
Jaro, Jaro-Winkler, 莱文施泰因 Levenshtein使用kb树 Q-gram 我想知道在我的情况下哪种方法最有效?还是还有另一种实现模糊匹配的方法?
我尝试用45,000个单词进行尝试,使用Jaro-Winkler花费了8分钟,而且非常昂贵