我想使用Keras Tensorboard callback可视化seq2seq模型的梯度。如果我在编码器和解码器中使用常规LSTM单元,则会得到很好的非零梯度:
但是,如果我将rnn单元格更改为CuDNNLSTM,则某些梯度会变为零,这似乎是不正确的:
两个模型似乎都能正确训练。
那么,CuDNNLSTM梯度的可视化怎么了? Keras Tensorboard回调中是否存在错误?
我正在运行的代码是Keras lstm_seq2seq示例的略微修改:https://gist.github.com/nicolas-ivanov/1818d6502d5f1496e5fbe14889eddca1