我正在使用LETOR制作信息检索系统。他们使用TF和IDF。 我确信TF依赖于查询。但是IDF应该是,但是:
“请注意,IDF与文档无关,因此查询下的所有文档都具有 相同的IDF值。“
但这没有意义,因为IDF是功能列表的一部分。如何计算每份文件的IDF?
答案 0 :(得分:5)
IDF是特定于学期的。任何给定术语的IDF与文档无关,但TF是特定于文档的。
用不同的方式说。 假设我们有3个文件。
doc id 1 “快速的棕色狐狸跳过懒狗”
doc id 2 “The Sly Fox Pub Annapolis位于教堂圈”
doc id 3 “位于历史街区中心的教堂圈”
现在,如果IDF是(文件数量)/(包含期限t的文件数量) 那么狐狸一词的IDF是3/2,无论搜索是什么或文件是什么。所以IDF是t的函数。
另一方面,TF是t和d的函数。因此,对于doc id 1,'the'的TF是2。答案 1 :(得分:4)
添加到jshen所说的内容:
IDF衡量您正在搜索的给定语料库中任何特定单词或克的常见程度。它是对这个词的罕见程度的估计,因此它可能具有重要性。因此,如果查询包含一个不常见的单词,则应该判断包含该罕见单词的文档更重要。