标签: python optimization
我拥有200k +名称和姓氏重新记录的大型MongoDB数据库。
如何优化添加新记录的过程,如果在插入之前我想为所有200k +记录计算levinstein距离,并且只有当它高于垃圾桶才能进行插入以逃脱碰撞(这意味着,这个名称和姓氏)由于一些翻译错误,新记录可能略有不同,但仍然是同一个人。)
有关人员的数据来自不同的来源,因此我希望同一个人的信息不会被复制并分散在数据库中。