标签: tensorflow deep-learning summarization rnn textsum
我在600k文章+摘要的训练语料库中一直在训练textum seq2seq w / attention模型,用于抽象概括。这可以算是收敛吗?如果是这样,它会在低于5k步之后收敛吗?考虑:
或者我实际上是不是在茶叶中读我的狗的脸,是否是预期的边缘负斜率?
答案 0 :(得分:0)
好的,所以我实际上转而使用GPU(而不是CPU)进行培训,并证明该模型仍在学习。以下是初始化全新模型后的学习曲线:
使用AWS p2.xlarge NVIDIA K80进行加速训练约为30次。