我已经阅读了将nce_loss与Tensorflow结合使用的教程,并了解了MNIST with nce loss。但是,我不想只预测下一个单词,而是想预测整个输出向量。
我要在模型中输入大小为[B x N x E]
的词嵌入(上下文),其中N
是序列,E
是嵌入大小。我也有大小target_idx
的{{1}}和大小[B x N]
的{{1}}。 (批量大小为1,并填充N)。
我的损失功能设置如下:
outputs
我的输出似乎只是一个字(或两个字),在整个输出中重复出现。
[B x N x E]
损失正在下降,但我看不到更连贯的输出