lucene - Lucene 7：无论字段如何，如何计算idf？ - Thinbug

Lucene 7：无论字段如何，如何计算idf？

时间：2018-07-11 10:06:43

标签： lucene tf-idf

Lucene提供了不同的方法来计算idf。基本上，Lucene建议采用术语的文档频率，文档数量，并最终将它们传递给idf计算器，例如ClassicSimilarity提供的计算器。因此，假设我们想知道术语“房屋”的idf。以下是标准过程：

IndexReader reader = //take the reader of your index
Term myTerm = Term(fieldName, "house");
int docFreq = reader.docFreq(myTerm);
int docNumber = reader.docNum();
float idf = new ClassicSimilarity().idf(docFreq, docNumber);

但是，重点是到目前为止，我们还没有计算“ house”的idf ！我们刚刚在fieldName 字段中计算了房屋的IDF！

那如果我们想计算idf而不考虑字段怎么办？

是的，我知道我可以循环查看集合中的每个文档，并自行计算，但是我希望Lucene提供一些内置的方法。

0 个答案:

没有答案

相关问题

如何计算IDF？

如何返回结果文档中的单词数以计算TF

如何计算文档字段中特殊术语的频率？

如何使用Lucene和Java计算与tf-idf的余弦相似度

使用Lucene计算DF不起作用

lucene 4.10.2计算索引中所有项的tf-idf

tf / idf在场内提升

pyLucene - 如何使用BM25相似性而不是tf-idf

Lucene 7：无论字段如何，如何计算idf？

Lucene IDF计算-是索引中所有字段中的文档数量，还是仅来自查询中的字段

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？