使用新的培训师在SPU上进行TPU的Huggingface变形金刚培训的问题

时间:2020-06-13 03:59:23

标签: machine-learning deep-learning huggingface-transformers tpu squad

我正在研究一个合作实验室,其中我已经使用新的Trainer编写了用于训练SQUAD数据集的代码。 我的目标是使用TPU训练SQUAD。

这是相同的代码。 https://colab.research.google.com/drive/1P-k91PvqRMdaoySs08GuzJfoz30cseA4?usp=sharing

当我获取较小的数据(例如仅100到1000个示例)时,这很好用。

但是,一旦我增加到10000个示例,我就会开始获得SIGKILL。

我认为这是由于该进程占用大量RAM并被杀死。

有什么想法如何与Colab TPU一起使用吗?或为什么要使用这么多的内存。

0 个答案:

没有答案