应用错误收集

我从237个类别中总共选择了24478个景点描述数据，以对BERT进行微调，平均损失仍约为5。具体而言，每个类别的数据量小于或等于200，并且学习率：10-6或10-7。其他超参数与BERT的原始实验一致。哪些因素可能导致损失无法收敛？

我从公共新闻数据集中的10个类别中选择了800个新闻数据作为训练集。经过10个时期的训练，学习率为10-5，该模型对400个测试样本的准确率达到了97％。在验证了该方法的有效性之后，我从14个类别中总共选择了3050个景点描述数据，以对BERT基进行微调。经过10个训练周期的学习，学习率为10-6，训练损失收敛至0.5，该模型在230个测试样本上达到了83％的准确度（损失不会随着10-5的学习率而减少）。

使用训练数据微调BERT基数，损耗不会减少

0 个答案: