nlp - 注意 NLP 变换器网络中的“能力”

我目前正在撰写关于 NLP 转换器的硕士论文。我读了很多书，有一段时间一直想知道一个事实。在变形金刚中，我们有自注意力和注意力头。假设我有 512 维和 8 个 head 的词嵌入，那么每个 head 都会处理每个输入词的 64 维来计算 self-attention。

这是教科书上的一张图片，可以说明我的意思：

这是我现在的问题。我们可以说每个注意力头都有一种“能力”来理解单词的部分含义吗？假设一个词嵌入的前 64 个维度总是处理词的情感；那么第一个头会是情绪头吗？这对网络中的可解释性和学习意味着什么？

这是我在这里的第一个问题；我希望表达得足够清楚。

感谢您的回答！