python - 文本二进制分类训练期间的波动损失

我正在使用Longformer对文档文本二进制分类任务进行Huggingface Trainer class的微调，并且正在使用Tensorboard监视某些检查点的措施。< / p>

即使F1得分和准确性很高，我也对训练损失的波动感到困惑。

我在网上阅读的原因可能是：

学习率太高，但是我尝试使用3个值（1e-4、1e-5和1e-6），并且所有这些都产生了相同的效果
小批量。我正在使用具有8xK80 GPU的 Sagemaker笔记本p2.8xlarge 。我可以用来避免 CUDA内存不足错误的每个GPU的批处理大小为1。因此，总批处理大小为 8 。我的直觉是，对于包含57K个示例（每个纪元7K个步骤）的数据集，bs 8太小了。不幸的是，这是我可以使用的最高价值。

在这里，我报告了F1的趋势，准确性，损失和平滑损失。灰线是1e-6的学习率，粉红色的是1e-5。

我重新确定了培训的所有信息：

批处理大小：1 x 8GPU = 8
学习率： 1e-4 ， 1e-5 ， 1e-6 （均已测试）没有改善的损失
型号： Longformer
数据集：
- 培训集： 57,000个示例
- 开发集： 12K示例
- 测试集： 12,000个示例

可能是什么原因？尽管F1和准确性结果相当好，这可以算是一个问题吗？

我会先告诉你波动的原因，然后再告诉你可能的解决方法。

原因

当你训练一个网络时，你会计算一个可以减少损失的梯度。为此，您需要反向传播损失。现在，理想情况下，您可以根据数据中的所有样本计算损失，因为这样您基本上会考虑每个样本，并提出一个可以捕获所有样本的梯度。实际上，由于对所有样本计算梯度的计算复杂性，这是不可能的。

因此，我们使用 small batch_size 作为近似值！这个想法不是考虑所有样本，我们说我基于一些小样本集计算梯度，但作为权衡，我丢失了有关梯度的信息。

经验法则：较小的批次大小会产生嘈杂的梯度，但它们会更快地收敛，因为每个 epoch 都有更多的更新。如果您的批量大小为 1，您将在每个 epoch 中进行 N 次更新。如果是 N，则每个 epoch 将只有 1 次更新。另一方面，较大的批次大小会提供更多信息梯度，但它们收敛速度较慢并增加计算复杂度。

这就是为什么对于较小的批次大小，您会观察到不同的损失/波动，因为梯度是嘈杂的。

解决方案：累积梯度

如果出现内存问题，您可以使用累积梯度的概念来对抗波动损失。它在每个小批量之后计算损失和梯度，但不是更新每个批次的权重，而是等待并累积连续批次的梯度。然后最终根据指定批次数后的累积梯度更新参数。

在文档的这个页面上，您可以找到如何应用它：https://huggingface.co/transformers/v1.2.0/examples.html

文本二进制分类训练期间的波动损失

1 个答案: