标签: tensorflow pytorch
我使用PyTorch / Tensorflow实现seq2seq模型。
seq2seq
当编码器具有m层而解码器具有n层时,如果只使用 last 编码器层的状态来初始化第一个解码器层并保持所有层的状态超过零?
m
n
或者,当m == n时,是否应该使用编码器的所有状态来初始化解码器的对应层的状态?
m == n
如果编码器(解码器)是双向的而解码器(编码器)不是,那么在这种情况下如何初始化解码器的隐藏状态呢?