在删除编码器的bw和bw层之后,我尝试使用此配置https://github.com/rwth-i6/returnn-experiments/blob/master/2018-asr-attention/librispeech/full-setup-attention/returnn.config
来训练一个简单的单向编码器。
但是,没有经过预训练,我的实验都无法收敛。我尝试了不同的学习率和不同的时间减少因素。如[1st paper](({https://arxiv.org/abs/1805.03294)和[2nd paper](https://openreview.net/forum?id=S1gp9v_jsm)中所述,预训练使训练稳定,但在我的情况下,没有进行预训练就不会收敛模型。
有人可以建议我任何可能的解决方法吗?
答案 0 :(得分:0)
从评论中看来,似乎主要的问题是:如何在不进行预训练的情况下使其收敛。
预训练的要点是它使训练更稳定,而我们需要减少其他超级参数的调整。这就是为什么仅禁用预训练时它不会按原样收敛的原因。您必须对其进行更多的调整。
要调整的内容: