损失减少,然后增加RoBERTa

时间:2020-08-14 03:15:41

标签: bert-language-model huggingface-transformers roberta-language-model

我正在尝试使用拥抱面和我自己的vocab文件来预训练RoBERTa模型。我打印出每批的损失,并在第一个时期看到损失减少,然后以更高的值跳跃/收敛。我想知道是否有人可以给我一些有关为什么发生这种情况的见解。

我尝试了不同的热身/训练步骤(时间表),不同的学习率,不同的批次大小和不同的训练数据大小。在每次运行之前,我还对数据集进行了改组。

This is the image of loss

0 个答案:

没有答案