应用错误收集

我有2 separate collections。每个都有世界各地的酒店信息，每个都由不同的公司提供，但都包含same information，每个集合都有gps，名称，国家，城市，电子邮件，传真和电话等信息问题是名称（gps，info和...）是 changed ，我写了一个相似度算法来查找集合A中的记录与集合B的匹配，我对算法没有任何问题，我的问题是关于运行时！

我的解决方案：

将A中的记录与集合B中的所有记录进行比较并找到最佳匹配（此部分使用类似算法，而不是我的问题），

问题：

我用pymongo和原始python代码编写此代码，是否有任何模块可以提高速度？（甚至平行也不错）

每个集合都有160k记录

运行独立，并行或多线程以提高速度

0 个答案: