查找类似文本的最佳算法

时间:2014-04-30 17:29:41

标签: php algorithm similarity

我试图统一数据库中的记录,我使用levenshtein算法并适用于某些情况,

工作样本(距离< = 2):

* --------- * ---------- * -------- *
|  Looking  |    Finds   | Distance |
* --------- * ---------- * -------- *
| No existe | No Existe  |     1    |
| desempleo | Desempleo  |     1    |    
* --------- * ---------- * -------- *

这很好,但忽略了市长距离的情况,如:

  • FemeninoFEMENINO与7距离

注意:我正在寻找PHP解决方案

1 个答案:

答案 0 :(得分:1)

比较

   echo levenshtein("Femenino", "FEMENINO");    // 7

VS

 echo levenshtein(strtolower("Femenino"), strtolower("FEMENINO"));  //0

如果字母大小写对您的应用程序不重要,请在比较之前将两个字符串设置为相同的情况,并且您将获得显着的改进。