我使用项目页面中推荐的参数训练了5天的文本总和。我使用的培训集包含超过300万篇文章摘要对。
首先running_average_loss
从9左右缓慢减少到4左右,但在此之后,running_average_loss
值在很大范围内变化,可能会高达5以上,但有时可能会如此我只用训练集中的一些文章来测试模型,但是输出远不是参考摘要,我感到很困惑。有人可以分享他们的经历吗?
我对以下问题感到困惑
答案 0 :(得分:0)
我认为你没有做足够的训练,因为从图表中可以看出50K步骤,甚至批量大小为64网络,最多可以看到50k * 64样本。 这比您拥有的300万个样本要小得多。网络甚至没有看到所有样品一次。因此,您需要再次通过相同的样本进行多次迭代才能更好地收敛。
如果您考虑平均损失,我相信损失1将是一个相当不错的损失。我认为您的网络运行时采样softmax丢失。 我很想知道你在哪里有300万个样品。