排名概念如何依赖于TF-IDF

时间:2014-05-20 09:47:17

标签: information-retrieval tf-idf

我有5个文件的3个文件中出现概念(cat) 例如

cat d1发生3次

cat d2发生4次

cat d5发生2次

我知道tf / idf在d1 d2和d5中提供了cat的重量 但是我想知道我怎么能得到猫的重量一般我的意思是基于5个文件的猫的重量。

1 个答案:

答案 0 :(得分:0)

通过定义,tf/idf是一种度量,它为给定文档中的每个单词赋予权重。因此,您可以为tf/idf中的概念cat计算d5权重,例如如下:tf只是tf(cat,d5)=2idf部分等于集合中文档数量的对数除以提到该单词的文档数量。在我们的案例中,idf(cat,D)= log(5/3)。接下来,tf/idf权重可以计算为tf/idf(cat,d5)=2* log(5/3)

可以看出,tf/idf适用于单个代理商。如果您的目标是在所有文档(或集合中的某个类别)中找到术语的权重,则可能需要查看不同的meathod(例如Lanuguage Modeling LM)。