应用错误收集

我遇到了 NaN 问题，导致我无法运行我的模型甚至一次迭代，而 this post 中的批量标准化解决方案使我能够运行我的模型。但是我仍然有一些迭代会返回 NaN/Infs，并且经过几次迭代后它们就会消失。这样可以吗？

我还注意到 LSTM 节点的数量对这个结果有影响。谁能解释一下使用批量归一化的正确方法和 LSTM 层中的节点数？

我的模型的结构类似于 this post，我只是想知道我应该在模型中的哪个位置使用批量归一化。这个批量归一化是否正确实现，还是我需要在每个 LSTM 层之后添加它？