关于余弦相似度

时间:2010-05-18 18:33:37

标签: similarity cosine tf-idf

我发现文件之间存在余弦相似性......我这样做了

D1 =(8,0,0,1)其中8,0,0,1是术语t1,t2,t3,t4的tf-idf分数

D2 =(7,0,0,1)

cos(theta)=(56 + 0 + 0 + 1)/ sqrt(64 + 49)sqrt(1 + 1)

出来是

cos(theta)= 5

现在我从这个值中得到什么...我不明白cos(theta)= 5表示它们之间的相似性......我做得对吗?

1 个答案:

答案 0 :(得分:2)

分母是错误的。

cosine similarity定义为

         D1 · D2
 sim = ———————————
        |D1| |D2|

下面

D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57
           ______________________    __
   |D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50
           ______________________    __
   |D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65

所以相似度应该是(57 /√(50 * 65))= 0.999846142,而不是5。