标签: nlp loss bert-language-model
我正在使用原始参数在单个Cloud TPU v2 8上使用保加利亚数据集对BERT进行预训练(学习率= 5e-5,训练批次大小= 32,训练步骤数= 100000)。 问题在于它完成了非常快的训练(3小时),并且损失不会低于3。我的训练数据为40 GB,我使用的是tensorflow 1.15 enter image description here
您知道可能是什么问题吗?