标签: deep-learning bert-language-model
我基于 Bert 构建了一个模型。我想使用两个任务来训练模型,它由 Mask Language Modeling 和 Classsification 组成。
Mask Language Modeling
Classsification
对于这两个任务,我观察了训练期间损失的变化。我发现 MLM loss 似乎没有减少,而 clf loss 正在减少。
MLM loss
clf loss
我该怎么做才能使 MLM loss 减少?
我的 learning rate 是 1e-5
learning rate
1e-5