我遇到了 NaN 问题,导致我无法运行我的模型甚至一次迭代,而 this post 中的批量标准化解决方案使我能够运行我的模型。但是我仍然有一些迭代会返回 NaN/Infs,并且经过几次迭代后它们就会消失。这样可以吗?
我还注意到 LSTM 节点的数量对这个结果有影响。谁能解释一下使用批量归一化的正确方法和 LSTM 层中的节点数?
我的模型的结构类似于 this post,我只是想知道我应该在模型中的哪个位置使用批量归一化。这个批量归一化是否正确实现,还是我需要在每个 LSTM 层之后添加它?