我正在Twitter上使用transformer_big参数集创建语言模型。我所做的唯一更改是max_length = 64(因为鸣叫通常很短)。 我使用8个Tesla V100 GPU,在Tensor Board上进行0.99平滑后,我的损失看起来像这样:
据我了解,有效的批处理大小为4096 * 8,我看到的损失是在大约32K个示例中的平均值。因此,我认为接下来的两个批次之间的损失差异将非常小,但是即使在超过25万批次之后,我也经常看到损失高达在步骤10K中获得的损失。
我尝试手动改组数据,将批量大小增加到5K,并将学习率降低到0.01,但是所有这些似乎都无济于事。 您是否知道会导致什么的原因?