BERT +自定义图层训练的性能随着时代的发展而下降

时间:2020-07-26 06:36:45

标签: tensorflow machine-learning nlp language-model

我正在用BERT上的自定义层训练分类模型。在此期间,该模型的训练性能会随着时期的增加(在第一个时期之后)而下降。.我不确定在这里要解决什么-是模型还是数据?

(对于数据来说,它是二进制标签,并且每个标签的数据点数保持平衡)。

关于可能出现什么问题的任何快速指示?有人遇到过吗?

编辑:原来我使用的变形金刚库和tf版本不匹配。一旦我解决了问题,培训表现就很好了!

谢谢!

1 个答案:

答案 0 :(得分:0)

请记住,与从头训练的模型相比,微调像Bert这样的预训练模型通常需要更少的时期。实际上是the authors of Bert recommend between 2 and 4 epochs。进一步的训练通常会转化为对数据的过度拟合,而忘记了预先训练的权重(请参阅灾难性遗忘)。

根据我的经验,这会影响小型数据集,特别是因为很容易在它们上过度拟合,即使在第二个时期。此外,您还没有在Bert之上评论自定义层,但是在其中添加过多的复杂性可能还会增加过度拟合的效果-请注意,文本分类的通用体系结构只会增加线性转换。