当我正在阅读Tomas Mikolov的一篇论文时:http://arxiv.org/pdf/1301.3781.pdf
我对“连续词袋模型”部分有一个担忧:
第一个提出的架构类似于前馈NNLM,其中去除了非线性隐藏层,并且所有词(不仅仅是投影矩阵)共享投影层;因此,所有单词都被投射到相同的位置(它们的向量被平均)。
我发现有些人提到Word2Vec模型中有一个隐藏层,但根据我的理解,该模型中只有一个投影层。此投影图层是否与隐藏图层完成相同的工作?
另一个问题是如何将输入数据投影到投影层?
“所有单词(不仅仅是投影矩阵)共享投影图层”,这是什么意思?
答案 0 :(得分:4)
从original paper第3.1节可以看出,没有隐藏层:
“第一个提议的架构类似于前馈NNLM 删除非线性隐藏层,并为所有单词“。
共享投影图层
关于你的第二个问题(共享投影层意味着什么),这意味着你只考虑一个单一的向量,它是上下文中所有单词的向量的质心。因此,您只考虑一个向量,而不是将n-1
个单词向量作为输入。这就是为什么它被称为连续 Bag of Words (因为在大小n-1
的上下文中,单词顺序丢失了。)