我有一个pytorch闪电代码,与bert-base-uncased或roberta-base一起使用时,可以完美地用于二进制分类任务,但不适用于roberta-large,即训练损失不会减少。
我不知道为什么会这样。 我正在寻找此类问题的原因。
编辑: 我正在训练MNLI数据集(仅包含和矛盾类) 该模型对所有示例都预测相同的类。
谢谢
答案 0 :(得分:0)
我的学习速度略有下降,并且该问题似乎已解决。 有趣的是,将学习从5e-5更改为5e-6会产生巨大影响。
现在,更大的问题是“如何找到正确的超参数集?”