我正在读这个问题:
How to understand Locality Sensitive Hashing?
但后来我发现计算余弦相似度的公式如下: Cos(v1,v2)= Cos(theta)=(汉明距离/签名长度)* pi =((h / b)* pi)
这意味着如果向量完全相似,那么汉明距离将为零,余弦值将为1.但是当向量完全不相似时,汉明距离将等于签名长度,因此我们有cos(pi),结果为-1。相似性不应始终在0和1之间吗?
答案 0 :(得分:3)
余弦相似度是矢量的点积除以幅度,因此角度的余弦完全可能具有负值。例如,如果您有单位向量指向相反的方向,那么您希望该值为-1。我认为令人困惑的是表示的本质,因为另一篇文章讨论的是二维空间中向量之间的角度,而在多维空间中创建向量更为常见,其中维度的数量通常远大于2,并且每个维度的值都是非负的(例如,文档中出现的单词与否),从而产生0到1的范围。