应用错误收集

我根据This写了一个简单的转换器并使用小型训练集（50个句子）。训练过程看起来不错，经过一些迭代后损失值很小。但是，当我尝试翻译培训集中中的某些句子时，它不起作用。有时它只给出一些与句子无关的词。有时翻译结果很有意义，但它是训练集中句子的组合。只有当我将训练集设置为仅包含一个句子时，模型才能在训练后正确翻译该句子。我的遮罩或位置编码有问题吗？由于培训程序是好的。在计算损失之前，我还尝试输出softmax的结果。正确的位置始终具有最高的概率值。

训练时变形金刚运作良好，但无法翻译

0 个答案: