我正在寻找一个好的" / easy metric来识别类似的地方/用户输入避免重复重复。
Levenstein距离对于Typos很有用
面包店
bekerry
(Levenstein距离:2)
但"失败"换换单词
St Ursula学校
St. Ursula学校
(Levenstein距离:17)
和补充
严肃的事业
Serious Business Incorporated
答案 0 :(得分:0)
我认为使用原始距离指标会很困难。您可能希望使用一些NLP方法(nltk)来执行ner(命名实体识别),然后使用该结果进行比较。