我正在运行https://github.com/jadore801120/attention-is-all-you-need-pytorch,此代码已通过PyTorch和Attention-is-all-you-need实现了论文Gigaword dataset,因此该任务从原始论文的意图(机器翻译(数据集)变为文本摘要名称是WST2016)。
与WST2016相比,Gigaword中的数据集要大得多,训练数据集的总大小分别为3,800,000和29,056。
问题是,当我训练Gigaword时,恰好是图形训练了整个数据的31%时,它急剧下降,多达30倍的线性下降,GPU util从99-100变为0-15% %。
我不知道为什么培训速度会完全降低到每批次31%的速度。
调试此问题的可能起点是什么?