标签: lucene statistics nlp
我想随意绘制术语,在原始文本中分发。换句话说,如果单词“elephant”在所有索引文档中出现的频率是“hippopotamus”这个词的两倍,那么它在我的随机抽取中应该出现两倍。这应该以有效的方式进行。
在我看来,索引可能不是一个理想的数据结构,但它是诱人的:它具有所有条款及其频率。