我有大约400万个文本文档的300GB大小索引。这是我试图完成的事情:
第1步:搜索单词或短语。说找到1000个文件。
步骤2:识别搜索结果中最常见的单词和短语,即1000个文档。 “最常见的单词和短语”应与步骤1中搜索的单词或短语的距离为X.X距离可以是从1个单词距离到1000个单词距离的任意数字。
步骤3.使用“最常见的单词和短语”,再次搜索400万份文档中的文档。
我在Luncene上阅读了有关自动建议和ngram搜索的问题。但是仍然不知道如何以最佳方式进行,特别是我应该使用特殊的分析器,特殊的查询还是两者兼而有之?