我在Tensorflow中实现了一个分层的注意力网络,它具有单词级别和句子级别的注意力。在单词级别,批处理从[batch_size, document_length, sentence_length, embed_dim]
重塑为[batch_size, sentence_length x document_length, embed_dim]
。因此,如果将句子填充到sentence_length
,则在此阶段,序列的中间会引入很多零。
我已经注意到,无论尝试多少次“技巧”,我的网络都不会收敛,我怀疑这可能是由于中间的零(即使我输入了长度向量)到)的零。
那么我的怀疑正确吗?序列中间步骤中的零会阻止学习吗?如果是这样,如何补救?