应用错误收集

Returnn中的预培训

时间：2018-12-03 10:40:39

标签： returnn

在删除编码器的bw和bw层之后，我尝试使用此配置https://github.com/rwth-i6/returnn-experiments/blob/master/2018-asr-attention/librispeech/full-setup-attention/returnn.config来训练一个简单的单向编码器。

但是，没有经过预训练，我的实验都无法收敛。我尝试了不同的学习率和不同的时间减少因素。如[1st paper]（（{https://arxiv.org/abs/1805.03294）和[2nd paper]（https://openreview.net/forum?id=S1gp9v_jsm）中所述，预训练使训练稳定，但在我的情况下，没有进行预训练就不会收敛模型。

有人可以建议我任何可能的解决方法吗？

1 个答案:

答案 0 :(得分：0)

从评论中看来，似乎主要的问题是：如何在不进行预训练的情况下使其收敛。

预训练的要点是它使训练更稳定，而我们需要减少其他超级参数的调整。这就是为什么仅禁用预训练时它不会按原样收敛的原因。您必须对其进行更多的调整。

要调整的内容：

初始化更重要
学习率（初始，预热阶段，进一步安排）
正则化（丢包，L2，标签平滑）（也许这也需要安排时间）