deep-learning - 多损失不能收敛 - Thinbug

多损失不能收敛

时间：2021-03-19 05:40:48

标签： deep-learning bert-language-model

我基于 Bert 构建了一个模型。我想使用两个任务来训练模型，它由 Mask Language Modeling 和 Classsification 组成。

对于这两个任务，我观察了训练期间损失的变化。我发现 MLM loss 似乎没有减少，而 clf loss 正在减少。

我该怎么做才能使 MLM loss 减少？

我的 learning rate 是 1e-5

0 个答案:

没有答案