应用错误收集

时间：2016-02-16 13:56:24

标签： machine-learning word2vec softmax

根据下面的等式，每个单词都有两个向量，一个用于预测上下文单词作为中心单词，另一个用作上下文单词。对于前者，我们可以在每次迭代中使用Gradient下降更新它。但是如何更新后者呢？哪个向量是最终模型中的最终向量？

答案 0 :(得分：0)

据我所知，无论使用什么架构（skip-gram / CBOW），都会从相同的字矢量矩阵中读取字向量。

正如同一个词的paper， v_in 和 v＆＃39; _out 的第二个脚注所示（例如 dog ）应该是不同的，并且假定它们在推导损失函数期间来自不同的词汇表。

实际上，单词出现在其自身上下文中的概率非常低，大多数实现都不会保存两个相同单词的向量表示，以节省内存和效率。