对于roberta大型模型,训练损失不会减少,但对于基于roberta的模型,没有基于bert的模型,训练效果很好

时间:2020-07-14 21:26:50

标签: huggingface-transformers

我有一个pytorch闪电代码,与bert-base-uncased或roberta-base一起使用时,可以完美地用于二进制分类任务,但不适用于roberta-large,即训练损失不会减少。

我不知道为什么会这样。 我正在寻找此类问题的原因。

编辑: 我正在训练MNLI数据集(仅包含和矛盾类) 该模型对所有示例都预测相同的类。

谢谢

1 个答案:

答案 0 :(得分:0)

我的学习速度略有下降,并且该问题似乎已解决。 有趣的是,将学习从5e-5更改为5e-6会产生巨大影响。

现在,更大的问题是“如何找到正确的超参数集?”