我在文档中读到了如何计算相关性分数。但我仍然无法理解为什么他们考虑了逆文档频率。逆文档频率如何影响文档的相关性?
答案 0 :(得分:1)
基本上,如果一个术语T非常常见(例如停用词,"和#34;,""等等)并且可以在大量文档中找到,那么你和#39;可能对收回所有文件不感兴趣,你可能不希望T这个词过分影响评分。
这是TFF / IDF公式中IDF部分的工作,这意味着稀有术语将对分数提供更高的贡献,因此为什么给定文档中术语T的术语频率TF成倍增加由该术语的IDF用于整个文档语料库。很明显,包含给定术语的文档越多,该术语的相关性/判别性就越低。
一个术语" elephant"在文档D中出现几次,但不一定在所有其他文档中出现,将有助于使文档D得分高于所有其他文档。
一个术语"和"出现在几乎所有文件中都不会对得分产生太大影响,因为以色列国防军将可以忽略不计。