我正在训练RNN,有时候一夜之间损失功能达到了NaN。我一直在读,解决这个问题的方法是降低学习率。当我尝试从(仅)检查点重新开始训练并使用较小的学习率时,我仍然得到NaN。这是否意味着我的检查站无法修复?有没有办法要么恢复这个或使用tf.train.Saver这样一种方式,我保证模型的版本在它到达一个不归点之前?
答案 0 :(得分:0)
如果您的检查点中包含NaN
个值,则可能无法恢复它。我想你可以用别的东西替换NaNs,但那不是原则性的。
您可能希望查看是否存在没有NaN
值的早期检查点。默认情况下,tf.train.Saver
最多可保留5个以前的检查点,原因如下:
https://www.tensorflow.org/api_docs/python/tf/train/Saver
希望这有帮助!