我一直在努力理解skip-gram学习算法的过程。这个小细节让我很困惑。
在下面的图表中(用于解释skip-gram的许多文章和博客中),多输出是什么意思?我的意思是,输入字是相同的,输出矩阵是相同的。然后,当你计算输出向量时,我认为输出向量是出现在输入单词附近的所有单词的概率集,它应该始终是相同的。
希望有人可以帮我这个〜
答案 0 :(得分:0)
这是一种易于误解的图表。该图中三个输出中的每一个都应被视为不同输入(上下文)字的结果。
将其输入 1 ,并通过隐藏层输出到输出层,您将获得(词汇量大小)V输出值(在每个节点处,假设更容易 - 思考 - 负采样模式) - 图中的顶部结果。用它来代替 2 ,你就得到了中间的结果。输入单词 3 ,您将获得最终结果。
答案 1 :(得分:0)
This article似乎可以充分解释它 - 每个" chunk"输出表示对上下文中一个位置的单词的预测(文本中输入单词之前和之后的单词窗口)。输出是"真的"单个向量,但该图试图清楚地表明它对应于单词向量的C实例,其中C是上下文的大小。