应用错误收集

损失减少，然后增加RoBERTa

时间：2020-08-14 03:15:41

标签： bert-language-model huggingface-transformers roberta-language-model

我正在尝试使用拥抱面和我自己的vocab文件来预训练RoBERTa模型。我打印出每批的损失，并在第一个时期看到损失减少，然后以更高的值跳跃/收敛。我想知道是否有人可以给我一些有关为什么发生这种情况的见解。

我尝试了不同的热身/训练步骤（时间表），不同的学习率，不同的批次大小和不同的训练数据大小。在每次运行之前，我还对数据集进行了改组。

This is the image of loss

0 个答案:

没有答案