Lucene附近的话语建议

时间:2014-03-07 03:39:30

标签: solr lucene

我有大约400万个文本文档的300GB大小索引。这是我试图完成的事情:

第1步:搜索单词或短语。说找到1000个文件。

步骤2:识别搜索结果中最常见的单词和短语,即1000个文档。 “最常见的单词和短语”应与步骤1中搜索的单词或短语的距离为X.X距离可以是从1个单词距离到1000个单词距离的任意数字。

步骤3.使用“最常见的单词和短语”,再次搜索400万份文档中的文档。

我在Luncene上阅读了有关自动建议和ngram搜索的问题。但是仍然不知道如何以最佳方式进行,特别是我应该使用特殊的分析器,特殊的查询还是两者兼而有之?

1 个答案:

答案 0 :(得分:0)

我使用了一种特殊的预分析器(将每个n-gram索引为短语)效果很好(参见RELMA LOINC医学术语搜索/制图程序)。