我正在关注Tensorflow website的Seq2Seq教程。 我为Eng-French WMT数据集运行了翻译模型。而不是收敛,每次迭代都会增加困惑吗?
global step 1500 learning rate 0.5000 step-time 0.74 perplexity 302.11
global step 3000 learning rate 0.5000 step-time 1.48 perplexity 47267.94
而且这种情况在不断增加。一旦它减少了。 任何有关调试的帮助都非常感谢。