要在崩溃后恢复训练,不仅必须还原模型,还必须还原进入model.fit(...)
进程状态的所有对象和参数。
在我费力分叉keras
代码以实现fitting
对象时,例如,包括训练数据,我想知道崩溃的标准方法(如果有) -recovery恢复从上次停止的TensorFlow 2.0培训。
还是有人真的在TensorFlow对象模型中填补了这个明显的空白?
答案 0 :(得分:1)
检查tf.keras.Model.fit()
进程的规范方法是ModelCheckpoint回调。
用法类似于:
mode.fit(..., callbacks=[tf.keras.callbacks.ModelCheckpoint(checkpoint_dir)]
默认情况下,在每个训练时期结束时生成的已保存检查点不仅包括模型的架构和权重值,还包括训练状态。如果您有兴趣,可以研究其源代码here。保存的训练状态包括
这些内容是否涵盖您所考虑的所有训练状态?