我正在使用以下教程here来训练和测试长度不同的文档(小(0-280),中(280-10000),大(10000 plus))文档数据集上的Bertsequenceclassifier模型使用GPU在google collab平台上运行。我已经能够成功使用140,000个条目的最大序列长度为380来训练和测试小型数据集。当我尝试在最大序列长度上训练中等数据集时,最大长度为512,仅1个历元且仅在10000个条目上出现CUDA内存不足错误。当我将最大序列长度更改为400时,它仍然可以训练模型。
我想很明显,文档的长度是造成此问题的原因,但是任何人都可以确切解释为什么会发生这种情况以及是否有任何方法可以解决此问题。谢谢
RuntimeError:CUDA内存不足。尝试分配20.00 MiB(GPU 0; 15.90 GiB总容量;已分配15.15 GiB; 7.88 MiB可用; 44.38 MiB缓存)