谢谢你们在这个网站上为TF / IDF提供的帮助。它帮助我在java中制作了tf-idf函数。我做了,但我有一个问题。在维基上,他们写的IDF可以计算出有多少文件都有这个词。但我很困惑。
例如,这里是字符串“JosAH很棒.JoshAH摇滚”所以TF为2/5,IDF有2个文件,每个文件包含JoshAH术语。所以 我们只是看看这个术语是否出现在其他文档中,或者我们会看到它在其他文档中出现了多少次?
答案 0 :(得分:1)
我不完全确定你在这里问的是什么。无论如何,IDF --- 逆文档频率 ---的目的是抑制非常频繁的术语得分,并提高不常用术语的得分。
在您收集的两份文件中,“JosAH”的IDF将为0 ---因为它出现在所有文件中。
答案 1 :(得分:0)
文档频率为'集合中包含术语'(来自Introduction to Information Retrieval)的文档数量,因此在您的话中,前一个选项'只是看到如果该术语出现'。