答案 0 :(得分:1)
关于您显示的图表, WI 矩阵中的每一行都是一个单词向量。 (训练后,当您向模型询问类似“猫”的单词时,它将找出从0到 V 的哪个插槽存储了“猫”,然后返回 WI < / em>矩阵。)
WI 用随机的低幅值向量初始化。 WO 在训练开始时保留为零。在训练期间,通过反向传播校正微调,反复改进了 WO 和 WI 的各行,以使网络的输出层对每个(上下文)->(字)培训示例。
对于skip-gram,您可以将此图中的输入层视为单个上下文输入字的单次编码。对于CBOW,您可以认为此图中的输入层将多字上下文中每个单词的计数作为 x i 值–多数为零(稀疏)。在CBOW中的实践中,在 WI 中查找每个单词,然后将它们的单词向量取平均值以创建隐藏层激活。
skip-gram和CBOW都可以在 WI 中创建有用的单词向量。