Question

我使用lucene库来创建索引和搜索。但是现在我希望在我的文本中出现的大部分单词都能得到前30个单词。我该怎么办？

Answer 1

如果您使用的是Lucene 4.0或更高版本，则可以使用HighFreqTerms类，例如：

TermStats[] commonTerms = HighFreqTerms.getHighFreqTerms(reader, 30, "mytextfield");
for (TermStats commonTerm : commonTerms) {
    System.out.println(commonTerm.termtext.utf8ToString()); //Or whatever you need to do with it
}

从每个TermStats对象中，您可以获取频率，字段名称和文本。

Answer 2

在SO中快速搜索得到了我：Get highest frequency terms from Lucene index

这对你有用吗？听起来像是完全相同的问题..

如何通过lucene索引和搜索得到顶级单词？

2 个答案: