应用错误收集

我有大约400万个文本文档的300GB大小索引。这是我试图完成的事情：

第1步：搜索单词或短语。说找到1000个文件。

步骤2：识别搜索结果中最常见的单词和短语，即1000个文档。 “最常见的单词和短语”应与步骤1中搜索的单词或短语的距离为X.X距离可以是从1个单词距离到1000个单词距离的任意数字。

步骤3.使用“最常见的单词和短语”，再次搜索400万份文档中的文档。

我在Luncene上阅读了有关自动建议和ngram搜索的问题。但是仍然不知道如何以最佳方式进行，特别是我应该使用特殊的分析器，特殊的查询还是两者兼而有之？