多损失不能收敛

时间:2021-03-19 05:40:48

标签: deep-learning bert-language-model

我基于 Bert 构建了一个模型。我想使用两个任务来训练模型,它由 Mask Language ModelingClasssification 组成。

对于这两个任务,我观察了训练期间损失的变化。我发现 MLM loss 似乎没有减少,而 clf loss 正在减少。

我该怎么做才能使 MLM loss 减少?

我的 learning rate1e-5

0 个答案:

没有答案