应用错误收集

如何从Lucene索引中绘制随机项？

时间：2013-02-23 13:29:08

标签： lucene statistics nlp

我想随意绘制术语，在原始文本中分发。换句话说，如果单词“elephant”在所有索引文档中出现的频率是“hippopotamus”这个词的两倍，那么它在我的随机抽取中应该出现两倍。这应该以有效的方式进行。

在我看来，索引可能不是一个理想的数据结构，但它是诱人的：它具有所有条款及其频率。

0 个答案:

没有答案