应用错误收集

如何解释textum模型的这种损失曲线？

时间：2017-08-15 22:42:14

标签： tensorflow deep-learning summarization rnn textsum

我在600k文章+摘要的训练语料库中一直在训练textum seq2seq w / attention模型，用于抽象概括。这可以算是收敛吗？如果是这样，它会在低于5k步之后收敛吗？考虑：

我训练的词汇量为200k
5k步（直到近似收敛），批量大小为4意味着最多看到20k个不同的样品。这只是整个训练语料库的一小部分。

或者我实际上是不是在茶叶中读我的狗的脸，是否是预期的边缘负斜率？

1 个答案:

答案 0 :(得分：0)

好的，所以我实际上转而使用GPU（而不是CPU）进行培训，并证明该模型仍在学习。以下是初始化全新模型后的学习曲线：

使用AWS p2.xlarge NVIDIA K80进行加速训练约为30次。