在MYSQL中查找具有不同拼写的重复记录

时间:2017-01-12 08:33:15

标签: mysql database drupal

  1. 我有字段name_entry的记录,如 udhaya,udaya,udhaya kumar,uthaya 。但这四个人都是同一个人,实际的咒语是udhaya kumar。
  2. 在这种情况下我需要查找人员记录并将重复更新为原始
  3. 我有 20000条记录,并且至少300条记录有类似的重复项。 我需要这个场景的解决方案。
  4. 提前谢谢..

1 个答案:

答案 0 :(得分:1)

在数据库级别,无法确定类似拼写(拼写错误)的单词。

但是,有很少的自然语言处理库 - 斯坦福NLP(Stanford_NLP),Apache Open NLP(Open NLP)等 - 名称实体识别可以扩展,培训自定义模型。从中,您可以对类似的拼写单词进行分组并删除重复项。这很复杂,而且结果的准确性取决于模型的训练程度。

但是,从您的问题来看,这是实现目标的唯一途径。