python - 用python计算200k弦的levenshtein距离

我拥有200k +名称和姓氏重新记录的大型MongoDB数据库。

如何优化添加新记录的过程，如果在插入之前我想为所有200k +记录计算levinstein距离，并且只有当它高于垃圾桶才能进行插入以逃脱碰撞（这意味着，这个名称和姓氏）由于一些翻译错误，新记录可能略有不同，但仍然是同一个人。）

有关人员的数据来自不同的来源，因此我希望同一个人的信息不会被复制并分散在数据库中。