应用错误收集

使用新的培训师在SPU上进行TPU的Huggingface变形金刚培训的问题

时间：2020-06-13 03:59:23

标签： machine-learning deep-learning huggingface-transformers tpu squad

我正在研究一个合作实验室，其中我已经使用新的Trainer编写了用于训练SQUAD数据集的代码。我的目标是使用TPU训练SQUAD。

这是相同的代码。 https://colab.research.google.com/drive/1P-k91PvqRMdaoySs08GuzJfoz30cseA4?usp=sharing

当我获取较小的数据（例如仅100到1000个示例）时，这很好用。

但是，一旦我增加到10000个示例，我就会开始获得SIGKILL。

我认为这是由于该进程占用大量RAM并被杀死。

有什么想法如何与Colab TPU一起使用吗？或为什么要使用这么多的内存。

0 个答案:

没有答案