标签: tensorflow transformer attention-model autoregressive-models
我研究了 Transformer 架构中自回归与非自回归之间的区别。但我想知道 TensorFlow 中的注意力层是否实际上是自回归的?还是我需要实现自回归机制?
我没有看到任何因果关系选项(例如 causal=true/false)
我没有看到说明“tfa.layers.MultiHeadAttention”是否自回归的文档
对此的任何想法将不胜感激。