应用错误收集

对于roberta大型模型，训练损失不会减少，但对于基于roberta的模型，没有基于bert的模型，训练效果很好

时间：2020-07-14 21:26:50

标签： huggingface-transformers

我有一个pytorch闪电代码，与bert-base-uncased或roberta-base一起使用时，可以完美地用于二进制分类任务，但不适用于roberta-large，即训练损失不会减少。

我不知道为什么会这样。我正在寻找此类问题的原因。

编辑：我正在训练MNLI数据集（仅包含和矛盾类）该模型对所有示例都预测相同的类。

谢谢

1 个答案:

答案 0 :(得分：0)

我的学习速度略有下降，并且该问题似乎已解决。有趣的是，将学习从5e-5更改为5e-6会产生巨大影响。

现在，更大的问题是“如何找到正确的超参数集？”