Question

我总共要训练500个纪元。但在Google colab中，每个纪元需要花费8分钟。谁能帮助我，在特定时期完成后如何保存我的模型状态，并从我留在google Colab的地方再次开始训练？

Answer 1

如果您正在使用张量流，则可以使用keras的ModelCheckpoint回调来完成。安装您的Google驱动器以保存模型。

pip install -q pyyaml h5py  # Required to save models in HDF5 format

filepath = '/content/drive/'
checkpoint_callback = tf.keras.callbacks.ModelCheckpoint(filepath= filepath, 
                                                         save_weights_only=True, save_best_only=True)

model.fit(x_train, y_train, epochs=500, callbacks= [checkpoint_callback])

模型权重将保存在每个时期的末尾，如果这是迄今为止最好的结果。您可以稍后加载模型权重：

model.load_weights(checkpoint_filepath)

Answer 2

如果您要在pytorch中将特定时期数后将模型保存到Google驱动器，可以使用

首次安装Google驱动器

from google.colab import drive
drive.mount('/content/gdrive')

然后在colab中运行单元并进行身份验证。现在，应该安装Google驱动器。现在将路径设置为

PATH = F"/content/gdrive/My Drive/{Model name}/{model_save_name}"

您可以保存模型

    if(epoch%(number_epoch_to_save)==0):
        torch.save(model.state_dict(), PATH)

示例文档可在https://pytorch.org/tutorials/beginner/saving_loading_models.html

中找到

在Google Colab中保存模型状态和负载

2 个答案: