应用错误收集

我正在Twitter上使用transformer_big参数集创建语言模型。我所做的唯一更改是max_length = 64（因为鸣叫通常很短）。我使用8个Tesla V100 GPU，在Tensor Board上进行0.99平滑后，我的损失看起来像这样：

据我了解，有效的批处理大小为4096 * 8，我看到的损失是在大约32K个示例中的平均值。因此，我认为接下来的两个批次之间的损失差异将非常小，但是即使在超过25万批次之后，我也经常看到损失高达在步骤10K中获得的损失。

我尝试手动改组数据，将批量大小增加到5K，并将学习率降低到0.01，但是所有这些似乎都无济于事。您是否知道会导致什么的原因？