搜索引擎的语言语料库

时间:2012-12-21 22:35:11

标签: lucene nlp search-engine sphinx information-retrieval

我正在努力寻找一个用于构建语言语料库搜索引擎的好库。这样的引擎必须产生绝对透明的搜索结果(找到的匹配的确切数量,即使整个语料库匹配也没有结果切割),基本查询语法(AND,OR,NOT运算符,距离搜索,通配符搜索)以及精炼的能力设置为搜索的文档(即设置为子语句)。 一个重要的细节是索引分区和并行执行搜索的能力(语料库的大小为10 ^ 8个单词,搜索服务必须是实时的)。

主要选择在Sphinx和Clucene(C ++ Lucene端口)之间。不幸的是,我对这些图书馆的组织知之甚少,所以知道哪一个符合我的要求会更有帮助。

(我也尝试过一种专门的引擎 - IMS Corpus Workbench - 结果证明它不像所需的那样可扩展。)

1 个答案:

答案 0 :(得分:1)

我建议设置SOLR服务器,这是一个Lucene衍生产品并具有Restful接口。 Lucene(SOLR)的新功能在其他同行中是无与伦比的。一个10 ^ 8个不同单词的语料库,可能是一个问题,但我希望它们是非独特的。最重要的是,在我的猜测中,它可能会导致一些性能损失。在裸露的Lucene上并行提供分区和搜索将是一种遗留问题。 SOLR提供这两种功能。 我不太了解狮身人面像。但到目前为止,Lucene及其衍生品正处于最前沿。