tensorflow - BERT +自定义图层训练的性能随着时代的发展而下降

时间：2020-07-26 06:36:45

标签： tensorflow machine-learning nlp language-model

我正在用BERT上的自定义层训练分类模型。在此期间，该模型的训练性能会随着时期的增加（在第一个时期之后）而下降。.我不确定在这里要解决什么-是模型还是数据？

（对于数据来说，它是二进制标签，并且每个标签的数据点数保持平衡）。

关于可能出现什么问题的任何快速指示？有人遇到过吗？

编辑：原来我使用的变形金刚库和tf版本不匹配。一旦我解决了问题，培训表现就很好了！

谢谢！

答案 0 :(得分：0)

请记住，与从头训练的模型相比，微调像Bert这样的预训练模型通常需要更少的时期。实际上是the authors of Bert recommend between 2 and 4 epochs。进一步的训练通常会转化为对数据的过度拟合，而忘记了预先训练的权重（请参阅灾难性遗忘）。

根据我的经验，这会影响小型数据集，特别是因为很容易在它们上过度拟合，即使在第二个时期。此外，您还没有在Bert之上评论自定义层，但是在其中添加过多的复杂性可能还会增加过度拟合的效果-请注意，文本分类的通用体系结构只会增加线性转换。