如何解释textum模型的这种损失曲线?

时间:2017-08-15 22:42:14

标签: tensorflow deep-learning summarization rnn textsum

我在600k文章+摘要的训练语料库中一直在训练textum seq2seq w / attention模型,用于抽象概括。这可以算是收敛吗?如果是这样,它会在低于5k步之后收敛吗?考虑:

  • 我训练的词汇量为200k
  • 5k步(直到近似收敛),批量大小为4意味着最多看到20k个不同的样品。这只是整个训练语料库的一小部分。

或者我实际上是不是在茶叶中读我的狗的脸,是否是预期的边缘负斜率?

Loss over steps

1 个答案:

答案 0 :(得分:0)

好的,所以我实际上转而使用GPU(而不是CPU)进行培训,并证明该模型仍在学习。以下是初始化全新模型后的学习曲线: enter image description here

使用AWS p2.xlarge NVIDIA K80进行加速训练约为30次。