对于LSTM(RNN)小区。
它有三个向量:
进一步确认:当我们使用seq2seq时,它会提供两个输出
outputs, state = tf.contrib.legacy_seq2seq.embedding_rnn_seq2seq(...)
输出是上面提到的1.st变量,state包含上面提到的2.nd和3.rd向量。
现在在测试/预测时,我们可以直接将输出值传递给下一个解码器输入,但是由于空间问题,我们使用了输出_投影(W,B){/ 3}}。
现在我的疑问是我们用(W *?+ B)多少向量/值投影,以减少空间,以及它如何减少空间。