用python搜索句子上的术语

时间:2012-05-22 09:16:31

标签: python mongodb dictionary matching text-mining

我在MongoDB中存储了几个句子,以及几个术语词典(每个术语由一个或多个单词组成)。我想在句子上搜索术语,但是在每个句子中尝试匹配每个术语真的很慢,这将是完全匹配的。我怎样才能轻松地进行模糊匹配或类似的事情来找到我对句子的术语?

例如,

句:

时钟基因NPAS2中的Ala394Thr多态性:非霍奇金淋巴瘤风险的昼夜节律修饰因子

字典:

Ala394Thr | NPAS-2 |霍奇金淋巴瘤

结果应该是:

时间基因中的Ala394Thr 多态性 NPAS2 :非霍奇金淋巴瘤风险的昼夜节律修饰因子

1 个答案:

答案 0 :(得分:2)

我可能会建议您查看专用搜索引擎,例如Solr或ElasticSearch。它们更适合这类任务。

关于如何使用oplog拖尾来查看https://github.com/renctan/mongo-solr