具有softmax函数的基本Skip-bigram word2vec模型中每个单词的两个向量

时间:2016-02-16 13:56:24

标签: machine-learning word2vec softmax

我正在阅读原始的word2vec论文:http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

根据下面的等式,每个单词都有两个向量,一个用于预测上下文单词作为中心单词,另一个用作上下文单词。对于前者,我们可以在每次迭代中使用Gradient下降更新它。但是如何更新后者呢?哪个向量是最终模型中的最终向量? enter image description here

1 个答案:

答案 0 :(得分:0)

据我所知,无论使用什么架构(skip-gram / CBOW),都会从相同的字矢量矩阵中读取字向量。

正如同一个词的paper v_in v' _out 的第二个脚注所示(例如 dog )应该是不同的,并且假定它们在推导损失函数期间来自不同的词汇表。

实际上,单词出现在其自身上下文中的概率非常低,大多数实现都不会保存两个相同单词的向量表示,以节省内存和效率。