我正在做一个关于电影数据集上余弦相似度的项目,我对计算余弦相似度的公式感到困惑。
但是我在线搜索,一些文章表明分母是:sqrt(A1 ^ 2 + B1 ^ 2)* sqrt(A2 ^ 2 + B2 ^ 2)* ... * sqrt(Ai ^ 2 + Bi ^ 2)
我很困惑,有什么区别?哪个是正确的,或者它们都是正确的?
答案 0 :(得分:1)
图像上的一个正确。在两个维度上,它源自Law of cosines 它将三角形的一侧的长度与另一侧的长度以及与c相反的角度theta关联起来:
c^2==a^2+b^2-2*b*c(cos(theta))
您可以用多种方法证明这一点,一个很好的验证方法是知道cos(gamma)==0
(a和b边正交)时,您得到勾股定理。
要在图像上获取公式,必须将其转换为解析几何(矢量)
norm(A-B)^2==norm(A)^2+norm(B)^2−2*norm(A)*norm(B)*cos(theta)
并通过使用规范(A-B)^ 2是定义(A-B)*(A-B)并扩展 我们得到
norm(A-B)^2 ==norm(A)^2+norm(B)^2-2*A*B
因此,将两个表达式都相等,并进行抵消,就会得到结果
norm(A)*norm(B)*cos(theta) = A*B
这是定义(和norm(v) = sqrt(v*v)
)上(重新排列的)公式。对于n维,您可以展示出这种效果,这是因为旋转欧几里得空间会保留范数和内积,并且矢量所跨的2D平面恰好是xy平面的旋转。
良好的完整性检查是,正交性产生的余弦为0,并且余弦在0和1之间(此is the Cauchy Schwarz theorem)
更新: 在评论中提到的示例中,您可以通过运行
查看博客的结果import sklearn.metrics.pairwise as pw
print(pw.cosine_similarity([[4,3]],[[5,5]]))
print(pw.cosine_similarity([[4,3,5]],[[5,5,1]]))
请注意,如果您运行:
from sklearn.metrics.pairwise import pairwise_distances
print(pairwise_distances([[4,3,5]],[[5,5,1]],metric='cosine'))
您得到0.208而不是0.792,这是因为使用
余弦度量表示为1-cos(theta)
(请参见0.208 + 0.792
为1)。之所以进行这种转换,是因为在谈论距离时,您希望一个点到它自己的距离为0。