我有5个文件的3个文件中出现概念(cat) 例如
cat d1发生3次
cat d2发生4次
cat d5发生2次
我知道tf / idf在d1 d2和d5中提供了cat的重量 但是我想知道我怎么能得到猫的重量一般我的意思是基于5个文件的猫的重量。
答案 0 :(得分:0)
通过定义,tf/idf
是一种度量,它为给定文档中的每个单词赋予权重。因此,您可以为tf/idf
中的概念cat
计算d5
权重,例如如下:tf
只是tf(cat,d5)=2
。 idf
部分等于集合中文档数量的对数除以提到该单词的文档数量。在我们的案例中,idf(cat,D)= log(5/3)
。接下来,tf/idf
权重可以计算为tf/idf(cat,d5)=2* log(5/3)
。
可以看出,tf/idf
适用于单个代理商。如果您的目标是在所有文档(或集合中的某个类别)中找到术语的权重,则可能需要查看不同的meathod(例如Lanuguage Modeling LM)。