应用错误收集

我正在使用带有tensorflow的keras创建翻译机。我当前的模型是word2word，具有注意力和老师的强迫力。

我不知道您是否已经注意到或知道word2word模型“吐出”在矩阵的每个位置中出现softmax的原因，元素似乎已经知道下一个结果。

示例：预测：我爱咖啡

在不考虑第一个argmax的情况下分析softmax的第一个矢量时，第一个单词的第二高选择概率-例如“ I”-我们意识到，正是下一个矢量的argmax预测的值，在“ love”的情况下，第三个位置似乎也只是第三个向量的最大概率，这种情况一直持续到翻译结束。

我不知道你能否理解。