BERT的训练前损失并未减少

时间:2020-04-25 12:43:55

标签: nlp loss bert-language-model

我正在使用原始参数在单个Cloud TPU v2 8上使用保加利亚数据集对BERT进行预训练(学习率= 5e-5,训练批次大小= 32,训练步骤数= 100000)。 问题在于它完成了非常快的训练(3小时),并且损失不会低于3。我的训练数据为40 GB,我使用的是tensorflow 1.15 enter image description here

您知道可能是什么问题吗?

0 个答案:

没有答案
相关问题