我一直在阅读关于Word2Vec的论文(例如this one),我认为我理解训练向量以最大化在相同上下文中找到的其他单词的概率。
但是,我不明白为什么余弦是衡量单词相似度的正确方法。余弦相似性表示两个向量指向同一方向,但它们可能具有不同的大小。
例如,余弦相似性比较文档的词袋是有意义的。两个文档的长度可能不同,但具有相似的单词分布。
为什么不说欧几里德距离?
任何人都可以解释为什么余弦相似性适用于word2Vec?
答案 0 :(得分:3)
这两个距离指标可能具有很强的相关性,因此您使用哪一个并不重要。正如你所指出的,余弦距离意味着我们不必担心向量的长度。
本文指出字的频率与word2vec向量的长度之间存在关系。 http://arxiv.org/pdf/1508.02297v1.pdf
答案 1 :(得分:0)