搜索不可靠的作者姓名

时间:2012-06-14 13:34:46

标签: python

我们扫描了数千个旧文档,并将关键数据输入数据库。其中一个字段是作者姓名。

我们需要搜索给定作者的文档,但确切的名称可能输入不正确,因为许多文档都是手写的。

我想过只搜索姓氏的前几个字母,然后提供一个供用户选择的列表。我不知道在这个阶段有多少不同的作者,我怀疑它将是数百而不是数十万。将有数十万份文件。 有没有更好的办法? SQL数据库会更好地处理它吗?

该软件是python,并且会有一个文档列表,每个文档都有一个作者。

2 个答案:

答案 0 :(得分:0)

我认为您可以使用mongodb,您可以使用所有可能的作者名称设置列表字段。例如,你有手写名称“黑色”,你不能识别名称中的字母,例如“c”或“e”,你可以将原点名称设置为“黑色”并添加到可能的名称列表“blaek”

答案 1 :(得分:0)

您可以使用Sunburnt这是一个Python-Solr库,可以访问基于Solr构建的Lucene

Solr的摘录:

  

Solr是Apache Lucene项目中流行的,快速开源的企业搜索平台。其主要功能包括强大的全文搜索,点击突出显示,分面搜索,动态聚类,数据库集成,丰富文档(例如,Word,PDF)处理和地理空间搜索。 Solr具有高度可扩展性,可提供分布式搜索和索引复制,并为世界上许多最大的互联网站点提供搜索和导航功能。

它会为您提供搜索文档所需的一切,包括部分匹配和潜在匹配,无论您的搜索条件是什么。