在本地计算机上训练GPT-2,加载数据集

时间:2019-09-25 07:37:39

标签: python jupyter-notebook google-colaboratory

由于Google限制了我的资源,我试图在本地计算机上运行gpt-2,因为我对colab的培训时间过长。

但是,我看不到如何加载数据集。在原始的colab笔记本https://colab.research.google.com/drive/1VLG8e7YSEwypxU-noRNhsv5dW4NfTGce中,有以下命令 我无法在本地计算机上使用的gpt2.copy_file_from_gdrive()。

在github仓库https://github.com/minimaxir/gpt-2-simple上,他们只是给出文件名 将shakespeare.txt文件添加到gpt2.finetune函数中,它可以以某种方式工作,但这对我不起作用。

我们将不胜感激

1 个答案:

答案 0 :(得分:1)

如果我在GitHub上正确阅读了example,则如果机器上存在shakespeare.txt,它将加载file_name =;如果不存在,它将下载。对于本地数据集,我只需将txt文件放在同一文件夹中,然后在if not os.path.isfile(file_name):中调用它即可。

您应该能够删除CREATE TABLE `MyTable` ( `Key1` INT(11) NOT NULL, `Value` LONGBLOB NULL DEFAULT NULL, `Key2` INT(11) NOT NULL DEFAULT -1, PRIMARY KEY (`Key1`, `Key2`) ) 周围的逻辑-如果您使用本地文件,则不需要。