我通常看到的跳跃语法模型是一个三层神经网络,具有隐藏的投影/嵌入层。嵌入层具有嵌入权重矩阵,该矩阵最终将成为词在语料库中的嵌入向量。 softmax层(输出层)还具有权重矩阵,该权重矩阵不直接表示任何单词。在这里,我将此模型称为跳过模型模型1 。
我正在阅读book。该书提到了一种原始的跳过语法算法,与上述算法不同。在这里,我将此“原始”跳过语法模型称为跳过语法模型2 。根据这本书,
到目前为止,本书中讨论的skip-gram算法是 实际上是对最初提出的跳过文法算法的改进 由Mikolov等人于2013年发表。 本文中的算法没有使用中间隐藏层 学习表述。相反,使用的原始算法 两个不同的嵌入或投影层(输入和输出 嵌入图4.1中),并定义了从 嵌入自身:
我的第一个问题是在哪里可以找到“原始论文”?在论文向量空间中单词表示的有效估计中,skip-gram模型似乎是模型1,而不是上面的原始模型2。
在某些方面,人们说softmax标准化可计算矢量相似度。例如,在mbatchkarov's answer中,他对softmax计算进行了解释:
分子基本上是单词c( 上下文)和w(目标)词。分母计算 所有其他上下文c1和目标单词w的相似性。
第二个问题:是“原始”跳过语法模型2吗?因为在常见的跳过语法模型1中,输出层权重只是神经网络权重,而不是单词的矢量表示