应用错误收集

时间：2011-01-26 23:34:48

标签： information-retrieval tf-idf

我正在使用LETOR制作信息检索系统。他们使用TF和IDF。我确信TF依赖于查询。但是IDF应该是，但是：

“请注意，IDF与文档无关，因此查询下的所有文档都具有相同的IDF值。“

但这没有意义，因为IDF是功能列表的一部分。如何计算每份文件的IDF？

答案 0 :(得分：5)

IDF是特定于学期的。任何给定术语的IDF与文档无关，但TF是特定于文档的。

用不同的方式说。假设我们有3个文件。

doc id 1 “快速的棕色狐狸跳过懒狗”

doc id 2 “The Sly Fox Pub Annapolis位于教堂圈”

doc id 3 “位于历史街区中心的教堂圈”

现在，如果IDF是（文件数量）/（包含期限t的文件数量）那么狐狸一词的IDF是3/2，无论搜索是什么或文件是什么。所以IDF是t的函数。

另一方面，TF是t和d的函数。因此，对于doc id 1，'the'的TF是2。

答案 1 :(得分：4)

添加到jshen所说的内容：

IDF衡量您正在搜索的给定语料库中任何特定单词或克的常见程度。它是对这个词的罕见程度的估计，因此它可能具有重要性。因此，如果查询包含一个不常见的单词，则应该判断包含该罕见单词的文档更重要。