以下几个文件的IDF如何不同?

时间:2011-01-26 23:34:48

标签: information-retrieval tf-idf

我正在使用LETOR制作信息检索系统。他们使用TF和IDF。 我确信TF依赖于查询。但是IDF应该是,但是:

“请注意,IDF与文档无关,因此查询下的所有文档都具有 相同的IDF值。“

但这没有意义,因为IDF是功能列表的一部分。如何计算每份文件的IDF?

2 个答案:

答案 0 :(得分:5)

IDF是特定于学期的。任何给定术语的IDF与文档无关,但TF是特定于文档的。

用不同的方式说。 假设我们有3个文件。

doc id 1 “快速的棕色狐狸跳过懒狗”

doc id 2 “The Sly Fox Pub Annapolis位于教堂圈”

doc id 3 “位于历史街区中心的教堂圈”

现在,如果IDF是(文件数量)/(包含期限t的文件数量) 那么狐狸一词的IDF是3/2,无论搜索是什么或文件是什么。所以IDF是t的函数。

另一方面,TF是t和d的函数。因此,对于doc id 1,'the'的TF是2。

答案 1 :(得分:4)

添加到jshen所说的内容:

IDF衡量您正在搜索的给定语料库中任何特定单词或克的常见程度。它是对这个词的罕见程度的估计,因此它可能具有重要性。因此,如果查询包含一个不常见的单词,则应该判断包含该罕见单词的文档更重要。