用python计算200k弦的levenshtein距离

时间:2013-10-16 05:57:05

标签: python optimization

我拥有200k +名称和姓氏重新记录的大型MongoDB数据库。

如何优化添加新记录的过程,如果在插入之前我想为所有200k +记录计算levinstein距离,并且只有当它高于垃圾桶才能进行插入以逃脱碰撞(这意味着,这个名称和姓氏)由于一些翻译错误,新记录可能略有不同,但仍然是同一个人。)

有关人员的数据来自不同的来源,因此我希望同一个人的信息不会被复制并分散在数据库中。

0 个答案:

没有答案