我正在研究一个合作实验室,其中我已经使用新的Trainer编写了用于训练SQUAD数据集的代码。 我的目标是使用TPU训练SQUAD。
这是相同的代码。 https://colab.research.google.com/drive/1P-k91PvqRMdaoySs08GuzJfoz30cseA4?usp=sharing
当我获取较小的数据(例如仅100到1000个示例)时,这很好用。
但是,一旦我增加到10000个示例,我就会开始获得SIGKILL。
我认为这是由于该进程占用大量RAM并被杀死。
有什么想法如何与Colab TPU一起使用吗?或为什么要使用这么多的内存。