我有两个公式计算“余弦相似度”,有什么区别?

时间:2019-06-14 20:25:24

标签: machine-learning data-analysis recommendation-engine cosine-similarity recommender-systems

我正在做一个关于电影数据集上余弦相似度的项目,我对计算余弦相似度的公式感到困惑。

enter image description here

但是我在线搜索,一些文章表明分母是:sqrt(A1 ^ 2 + B1 ^ 2)* sqrt(A2 ^ 2 + B2 ^ 2)* ... * sqrt(Ai ^ 2 + Bi ^ 2)

我很困惑,有什么区别?哪个是正确的,或者它们都是正确的?

1 个答案:

答案 0 :(得分:1)

图像上的一个正确。在两个维度上,它源自Law of cosines 它将三角形的一侧的长度与另一侧的长度以及与c相反的角度theta关联起来:

c^2==a^2+b^2-2*b*c(cos(theta))

您可以用多种方法证明这一点,一个很好的验证方法是知道cos(gamma)==0(a和b边正交)时,您得到勾股定理。 要在图像上获取公式,必须将其转换为解析几何(矢量)

norm(A-B)^2==norm(A)^2+norm(B)^2−2*norm(A)*norm(B)*cos(theta)

并通过使用规范(A-B)^ 2是定义(A-B)*(A-B)并扩展 我们得到

norm(A-B)^2 ==norm(A)^2+norm(B)^2-2*A*B

因此,将两个表达式都相等,并进行抵消,就会得到结果

norm(A)*norm(B)*cos(theta) = A*B

这是定义(和norm(v) = sqrt(v*v))上(重新排列的)公式。对于n维,您可以展示出这种效果,这是因为旋转欧几里得空间会保留范数和内积,并且矢量所跨的2D平面恰好是xy平面的旋转。

良好的完整性检查是,正交性产生的余弦为0,并且余弦在0和1之间(此is the Cauchy Schwarz theorem

更新: 在评论中提到的示例中,您可以通过运行

查看博客的结果
import sklearn.metrics.pairwise as pw
print(pw.cosine_similarity([[4,3]],[[5,5]]))
print(pw.cosine_similarity([[4,3,5]],[[5,5,1]]))

请注意,如果您运行:

from sklearn.metrics.pairwise import pairwise_distances
print(pairwise_distances([[4,3,5]],[[5,5,1]],metric='cosine')) 

您得到0.208而不是0.792,这是因为使用 余弦度量表示为1-cos(theta)(请参见0.208 + 0.792为1)。之所以进行这种转换,是因为在谈论距离时,您希望一个点到它自己的距离为0。