规范化单词向量和文档向量之间的相似性?

时间:2018-05-15 02:18:06

标签: vector compare similarity word2vec doc2vec

余弦相似性广泛用于测量两个向量之间的相似性,其中两个可以是单词向量或文档向量。

其他人,如曼哈顿,欧几里德,闵可夫斯基等,也很受欢迎。

余弦相似度给出0到1之间的数字,因此它看起来像是两个向量之间相似性的百分比。欧几里德给出了一些变化很大的数字。

当两个向量之间的余弦相似度为0.78xxx时,包括我在内的人可能期望"这两个向量是78%相似的!",它不是实际的"相似度"两个向量。

与余弦相似性不同,minkowski,曼哈顿,堪培拉等甚至会给出一些不在0到1范围内的大数字。

For word1:word2 example
0.78 (cosine, gives between 0 to 1)
9.54 (Euclidean, gives the actual distance between two vectors)
158.417 (Canberra)

我希望可能会有一些标准化方法广泛用于表示实际的相似度"两个向量之间。如果你知道一些,请提供。如果有文章或论文,那就更好了。

For word1:word2 example
0.848 (cosine, transformed as normalized number)
0.758 (Euclidean, normalized between 0 to 1)
0.798 (Canberra, normalized between 0 to 1)

我不指望你提到softmax号,因为我读了一篇文章,说softmax号本身不应该被认为是实际的百分比。

1 个答案:

答案 0 :(得分:0)

对于任何可能的答案,您必须严格定义“实际'相似度'”的含义。

这些措施中的每一项都很有用。如果你需要那个范围内的东西,每个都可以缩放到0.0到1.0之间的值。但这不一定会使它们中的任何一个“百分比相似”,因为“百分比相似性”不是一个具有严格意义的概念。