我正在寻找一些好的指标(余弦,章鱼,jaccard,jaro,骰子等)来执行字符串的模糊匹配而不考虑单词顺序。我也愿意使用一些指标的组合。
例如:
'john rambo' == 'jovn rambo'
'john rambo' == 'rambo jovn'
'john rambo' == 'john rambo x'
'john rambo the vietnam veteran' == 'john rambo the vietnam us veteran'
但
'john kerry' != 'john rambo'
当我们添加拼写错误,单个字母或单词时,我的目标是检测类似的字符串(对于最后一个,被比较的字符串应该有合理的长度来表示它们与其中一个中的附加字相似它们)。