Question

余弦相似性广泛用于测量两个向量之间的相似性，其中两个可以是单词向量或文档向量。

其他人，如曼哈顿，欧几里德，闵可夫斯基等，也很受欢迎。

余弦相似度给出0到1之间的数字，因此它看起来像是两个向量之间相似性的百分比。欧几里德给出了一些变化很大的数字。

当两个向量之间的余弦相似度为0.78xxx时，包括我在内的人可能期望＆＃34;这两个向量是78％相似的！＆＃34;，它不是实际的＆＃34;相似度＆＃34;两个向量。

与余弦相似性不同，minkowski，曼哈顿，堪培拉等甚至会给出一些不在0到1范围内的大数字。

For word1:word2 example
0.78 (cosine, gives between 0 to 1)
9.54 (Euclidean, gives the actual distance between two vectors)
158.417 (Canberra)

我希望可能会有一些标准化方法广泛用于表示实际的相似度＆＃34;两个向量之间。如果你知道一些，请提供。如果有文章或论文，那就更好了。

For word1:word2 example
0.848 (cosine, transformed as normalized number)
0.758 (Euclidean, normalized between 0 to 1)
0.798 (Canberra, normalized between 0 to 1)

我不指望你提到softmax号，因为我读了一篇文章，说softmax号本身不应该被认为是实际的百分比。

Answer 1

对于任何可能的答案，您必须严格定义“实际'相似度'”的含义。

这些措施中的每一项都很有用。如果你需要那个范围内的东西，每个都可以缩放到0.0到1.0之间的值。但这不一定会使它们中的任何一个“百分比相似”，因为“百分比相似性”不是一个具有严格意义的概念。

规范化单词向量和文档向量之间的相似性？

1 个答案: