注意 NLP 变换器网络中的“能力”

时间:2021-03-06 20:27:35

标签: nlp huggingface-transformers attention-model

我目前正在撰写关于 NLP 转换器的硕士论文。我读了很多书,有一段时间一直想知道一个事实。在变形金刚中,我们有自注意力和注意力头。假设我有 512 维和 8 个 head 的词嵌入,那么每个 head 都会处理每个输入词的 64 维来计算 self-attention。

这是教科书上的一张图片,可以说明我的意思:

enter image description here

这是我现在的问题。我们可以说每个注意力头都有一种“能力”来理解单词的部分含义吗?假设一个词嵌入的前 64 个维度总是处理词的情感;那么第一个头会是情绪头吗?这对网络中的可解释性和学习意味着什么?

这是我在这里的第一个问题;我希望表达得足够清楚。

感谢您的回答!

0 个答案:

没有答案