我试图用递归神经网络预测单词。
我通过将经过预先训练的word2vec
个单词作为输入来训练网络。
我想知道我是否可以使用word2vec
目标词来计算错误成本。
它似乎不起作用,我从未见过这样的例子或论文。
是否可以使用word2vec作为计算错误成本的目标值?
如果是这样,我应该使用什么样的成本函数?
如果没有,请以数学方式解释原因。
我该如何设置输入和目标? 现在我使用如下的架构:
input : word1, word2, word3, target : word4
input : word1, word2, word3, word4, target : word5
也许我可以使用其他选项,如:
input : word1, word2 target : word2, word3
input : word1, word2, word3, target : word2, word3, word4
哪一个更好?或者还有其他选择吗?
如果有任何参考信息,请告诉我。
答案 0 :(得分:0)
预测通常通过输出softmax图层来进行,该图层给出了词汇表中所有单词的概率。
然而,最近的一篇论文建议将输入词向量与输出词分类器绑定并对其进行端到端训练。这显着减少了参数的数量。 https://arxiv.org/abs/1611.01462
关于架构,至少需要培训,我更倾向于第二种选择,因为第一种选择会丢失有关第二和第三个字的信息,这些信息也可用于培训。