我正在阅读原始的word2vec论文:http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf
根据下面的等式,每个单词都有两个向量,一个用于预测上下文单词作为中心单词,另一个用作上下文单词。对于前者,我们可以在每次迭代中使用Gradient下降更新它。但是如何更新后者呢?哪个向量是最终模型中的最终向量?
答案 0 :(得分:0)
据我所知,无论使用什么架构(skip-gram / CBOW),都会从相同的字矢量矩阵中读取字向量。
正如同一个词的paper, v_in 和 v' _out 的第二个脚注所示(例如 dog )应该是不同的,并且假定它们在推导损失函数期间来自不同的词汇表。
实际上,单词出现在其自身上下文中的概率非常低,大多数实现都不会保存两个相同单词的向量表示,以节省内存和效率。