我试图在我的项目中实施注意机制。但是,我的序列有不同的长度,我正在使用bucketing来解决问题。因此,我将LSTM输入形状定义为(None,None,features)。目前,似乎每个使用Keras的注意力实现都需要在输入形状中声明的固定数量的时间步长。理论上,注意力应该适用于这些不同的长度,因为无论输入长度如何,它都只是一个softmax。有没有办法制作一个" dynamic_attention"就像RNN层一样,它可以接受(None,None,features)作为输入形状。感谢。