我发现文件之间存在余弦相似性......我这样做了
D1 =(8,0,0,1)其中8,0,0,1是术语t1,t2,t3,t4的tf-idf分数
D2 =(7,0,0,1)
cos(theta)=(56 + 0 + 0 + 1)/ sqrt(64 + 49)sqrt(1 + 1)
出来是
cos(theta)= 5
现在我从这个值中得到什么...我不明白cos(theta)= 5表示它们之间的相似性......我做得对吗?
答案 0 :(得分:2)
分母是错误的。
D1 · D2
sim = ———————————
|D1| |D2|
下面
D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57
______________________ __
|D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50
______________________ __
|D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65
所以相似度应该是(57 /√(50 * 65))= 0.999846142,而不是5。