应用错误收集

时间：2015-10-27 16:57:35

标签： neural-network word2vec

当我正在阅读Tomas Mikolov的一篇论文时：http://arxiv.org/pdf/1301.3781.pdf

我对“连续词袋模型”部分有一个担忧：

第一个提出的架构类似于前馈NNLM，其中去除了非线性隐藏层，并且所有词（不仅仅是投影矩阵）共享投影层;因此，所有单词都被投射到相同的位置（它们的向量被平均）。

我发现有些人提到Word2Vec模型中有一个隐藏层，但根据我的理解，该模型中只有一个投影层。此投影图层是否与隐藏图层完成相同的工作？

另一个问题是如何将输入数据投影到投影层？

“所有单词（不仅仅是投影矩阵）共享投影图层”，这是什么意思？

答案 0 :(得分：4)

从original paper第3.1节可以看出，没有隐藏层：

“第一个提议的架构类似于前馈NNLM 删除非线性隐藏层，并为所有单词“。
共享投影图层

关于你的第二个问题（共享投影层意味着什么），这意味着你只考虑一个单一的向量，它是上下文中所有单词的向量的质心。因此，您只考虑一个向量，而不是将n-1个单词向量作为输入。这就是为什么它被称为连续 Bag of Words （因为在大小n-1的上下文中，单词顺序丢失了。）