我从237个类别中总共选择了24478个景点描述数据,以对BERT进行微调,平均损失仍约为5。具体而言,每个类别的数据量小于或等于200,并且学习率:10-6或10-7。其他超参数与BERT的原始实验一致。哪些因素可能导致损失无法收敛?
我从公共新闻数据集中的10个类别中选择了800个新闻数据作为训练集。经过10个时期的训练,学习率为10-5,该模型对400个测试样本的准确率达到了97%。在验证了该方法的有效性之后,我从14个类别中总共选择了3050个景点描述数据,以对BERT基进行微调。经过10个训练周期的学习,学习率为10-6,训练损失收敛至0.5,该模型在230个测试样本上达到了83%的准确度(损失不会随着10-5的学习率而减少)。