tf-idf - 如何计算IDF？

时间：2009-12-28 00:12:27

标签： tf-idf

谢谢你们在这个网站上为TF / IDF提供的帮助。它帮助我在java中制作了tf-idf函数。我做了，但我有一个问题。在维基上，他们写的IDF可以计算出有多少文件都有这个词。但我很困惑。

例如，这里是字符串“JosAH很棒.JoshAH摇滚”所以TF为2/5，IDF有2个文件，每个文件包含JoshAH术语。所以我们只是看看这个术语是否出现在其他文档中，或者我们会看到它在其他文档中出现了多少次？

答案 0 :(得分：1)

我不完全确定你在这里问的是什么。无论如何，IDF --- 逆文档频率 ---的目的是抑制非常频繁的术语得分，并提高不常用术语的得分。

在您收集的两份文件中，“JosAH”的IDF将为0 ---因为它出现在所有文件中。

答案 1 :(得分：0)

文档频率为'集合中包含术语'（来自Introduction to Information Retrieval）的文档数量，因此在您的话中，前一个选项'只是看到如果该术语出现'。