Returnn中的预培训

时间:2018-12-03 10:40:39

标签: returnn

在删除编码器的bw和bw层之后,我尝试使用此配置https://github.com/rwth-i6/returnn-experiments/blob/master/2018-asr-attention/librispeech/full-setup-attention/returnn.config来训练一个简单的单向编码器。

但是,没有经过预训练,我的实验都无法收敛。我尝试了不同的学习率和不同的时间减少因素。如[1st paper](({https://arxiv.org/abs/1805.03294)和[2nd paper](https://openreview.net/forum?id=S1gp9v_jsm)中所述,预训练使训练稳定,但在我的情况下,没有进行预训练就不会收敛模型。

有人可以建议我任何可能的解决方法吗?

1 个答案:

答案 0 :(得分:0)

从评论中看来,似乎主要的问题是:如何在不进行预训练的情况下使其收敛。

预训练的要点是它使训练更稳定,而我们需要减少其他超级参数的调整。这就是为什么仅禁用预训练时它不会按原样收敛的原因。您必须对其进行更多的调整。

要调整的内容:

  • 初始化更重要
  • 学习率(初始,预热阶段,进一步安排)
  • 正则化(丢包,L2,标签平滑)(也许这也需要安排时间)