余弦相似度,两个不同的向量,但结果大约是1?

时间:2017-04-09 16:58:29

标签: machine-learning data-mining text-mining bigdata

我有两个载体

向量1(1,2,3,4,5,6)

Vector2(12,13,14,15,16,17)

两个向量完全不同。但是我使用了Cosine Similarity公式,结果是 0.943843313096

我认为结果大概是0,1或0,2 ......但不是。为什么?请为我解释,非常感谢。

2 个答案:

答案 0 :(得分:3)

如果将矢量减少到2维,则可以更好地理解它。

Vector1(1,2)和Vector2(12,13)

位置矢量1将形成63.5度的角度,位置矢量2将形成47.31度的角度。差异只有16.1度。 Cos(16.1)= 0.96081

  • 查看余弦距离的常用方法是Cos(theta)= A.B /(Norm(A)* Norm(B))对于上述向量,A.B = 38 Norm(A)= 2.23, 标准(B)= 17.69因此,Cos(theta)= 38 /(2.23 * 17.69)= 0.96056

如果从上面找到theta,theta将等于16.1度!!!

答案 1 :(得分:0)

余弦相似度是矢量之间角度差异的度量。这些向量指向相似的方向,因此预期余弦接近1。