textum不会收敛

时间:2017-08-05 01:31:22

标签: tensorflow textsum

我使用项目页面中推荐的参数训练了5天的文本总和。我使用的培训集包含超过300万篇文章摘要对。

首先running_average_loss从9左右缓慢减少到4左右,但在此之后,running_average_loss值在很大范围内变化,可能会高达5以上,但有时可能会如此我只用训练集中的一些文章来测试模型,但是输出远不是参考摘要,我感到很困惑。有人可以分享他们的经历吗?

我对以下问题感到困惑

    每次跑步时,
  1. running_average_loss都不到10,这是正常的吗?
  2. 是否过度拟合,因为running_average_los在很大范围内变化并且无法收敛?
  3. 训练模型足够好或何时停止训练需要多长时间?是否有迹象表明要停止训练?
  4. enter image description here

1 个答案:

答案 0 :(得分:0)

我认为你没有做足够的训练,因为从图表中可以看出50K步骤,甚至批量大小为64网络,最多可以看到50k * 64样本。 这比您拥有的300万个样本要小得多。网络甚至没有看到所有样品一次。因此,您需要再次通过相同的样本进行多次迭代才能更好地收敛。

如果您考虑平均损失,我相信损失1将是一个相当不错的损失。我认为您的网络运行时采样softmax丢失。 我很想知道你在哪里有300万个样品。