地方的最佳距离指标是多少?

时间:2016-02-03 15:17:00

标签: java user-input levenshtein-distance

我正在寻找一个好的" / easy metric来识别类似的地方/用户输入避免重复重复

Levenstein距离对于Typos很有用

  

面包店

     

bekerry

(Levenstein距离:2)

但"失败"换换单词

  

St Ursula学校

     

St. Ursula学校

(Levenstein距离:17)

和补充

  

严肃的事业

     

Serious Business Incorporated

1 个答案:

答案 0 :(得分:0)

我认为使用原始距离指标会很困难。您可能希望使用一些NLP方法(nltk)来执行ner(命名实体识别),然后使用该结果进行比较。