我经历了[相关性评分背后的理论] [1],并且遇到了两个相关问题
Q1:-由于IDF公式为idf(t) = 1 + log ( numDocs / (docFreq + 1))
,其中numDocs
是索引中的文档总数。这是否意味着每次在索引中添加新文档时,我们都需要重新计算索引中所有现有文档的每个单词的IDF?
Q2:-下面提到的链接声明。我的问题是,为什么要针对每个字段而不是完整的文档计算TF / IDF分数?
当我们参考上式中的文档时,我们实际上是 谈论文档中的字段。每个领域都有自己的 倒排索引,因此出于TF / IDF的目的,该字段的值 是文档的价值。
答案 0 :(得分:0)
copy_to
合并为一个并进行搜索。