我在Hugging Face Transformers库上从头开始看到this tutorial on how to train a BERT model。
我正在尝试在Google Colab上针对1.5 GB数据训练GPT-2模型。我使用以下代码加载所有数据:
dataset = LineByLineTextDataset(
tokenizer=tokenizer,
file_path="./my-1.5gb-large-file.txt",
block_size=128,
)
文件太大,由于GPU中的内存有限,训练失败。有什么办法可以通过分割数据集来逐步训练GPT-2模型?