运行独立,并行或多线程以提高速度

时间:2018-02-10 12:42:19

标签: python mongodb parallel-processing bigdata pymongo

我有2 separate collections。每个都有世界各地的酒店信息,每个都由不同的公司提供,但都包含same information, 每个集合都有gps,名称,国家,城市,电子邮件,传真和电话等信息 问题是名称(gps,info和...)是 changed ,我写了一个相似度算法来查找集合A中的记录与集合B的匹配, 我对算法没有任何问题,我的问题是关于运行时!

我的解决方案:

将A中的记录与集合B中的所有记录进行比较并找到最佳匹配(此部分使用类似算法,而不是我的问题),

问题:

我用pymongo和原始python代码编写此代码,是否有任何模块可以提高速度? (甚至平行也不错)

每个集合都有160k记录

0 个答案:

没有答案