我有2 separate collections
。每个都有世界各地的酒店信息,每个都由不同的公司提供,但都包含same information
,
每个集合都有gps,名称,国家,城市,电子邮件,传真和电话等信息
问题是名称(gps,info和...)是 changed
,我写了一个相似度算法来查找集合A中的记录与集合B的匹配,
我对算法没有任何问题,我的问题是关于运行时!
我的解决方案:
将A中的记录与集合B中的所有记录进行比较并找到最佳匹配(此部分使用类似算法,而不是我的问题),
问题:
我用pymongo
和原始python
代码编写此代码,是否有任何模块可以提高速度? (甚至平行也不错)
每个集合都有160k记录