使用 LSTM 层训练模型期间的 NaN 和 inf

时间:2021-07-04 20:37:18

标签: python tensorflow keras lstm

我遇到了 NaN 问题,导致我无法运行我的模型甚至一次迭代,而 this post 中的批量标准化解决方案使我能够运行我的模型。但是我仍然有一些迭代会返回 NaN/Infs,并且经过几次迭代后它们就会消失。这样可以吗?

enter image description here

我还注意到 LSTM 节点的数量对这个结果有影响。谁能解释一下使用批量归一化的正确方法和 LSTM 层中的节点数?

我的模型的结构类似于 this post,我只是想知道我应该在模型中的哪个位置使用批量归一化。这个批量归一化是否正确实现,还是我需要在每个 LSTM 层之后添加它?

enter image description here

0 个答案:

没有答案