如何从Lucene索引中绘制随机项?

时间:2013-02-23 13:29:08

标签: lucene statistics nlp

我想随意绘制术语,在原始文本中分发。换句话说,如果单词“elephant”在所有索引文档中出现的频率是“hippopotamus”这个词的两倍,那么它在我的随机抽取中应该出现两倍。这应该以有效的方式进行。

在我看来,索引可能不是一个理想的数据结构,但它是诱人的:它具有所有条款及其频率。

0 个答案:

没有答案