达到NaN损失后恢复检查点?

时间:2017-05-07 15:38:30

标签: tensorflow loss checkpoint

我正在训练RNN,有时候一夜之间损失功能达到了NaN。我一直在读,解决这个问题的方法是降低学习率。当我尝试从(仅)检查点重新开始训练并使用较小的学习率时,我仍然得到NaN。这是否意味着我的检查站无法修复?有没有办法要么恢复这个或使用tf.train.Saver这样一种方式,我保证模型的版本在它到达一个不归点之前?

1 个答案:

答案 0 :(得分:0)

如果您的检查点中包含NaN个值,则可能无法恢复它。我想你可以用别的东西替换NaNs,但那不是原则性的。

您可能希望查看是否存在没有NaN值的早期检查点。默认情况下,tf.train.Saver最多可保留5个以前的检查点,原因如下:

https://www.tensorflow.org/api_docs/python/tf/train/Saver

希望这有帮助!