标签: tensorflow keras lstm recurrent-neural-network attention-model
使用RNN(LSTM / GRU)时,我们传递输入序列长度以限制序列展开。因此,例如,如果实际序列长度为8,并用2个额外的令牌填充,则将第8个令牌的隐藏状态复制到第9个和第10个令牌。
如何在填充序列长度上计算注意力得分?第八代,第九代和第十代令牌贡献不均吗?