我一直在尝试理解自我注意力,但是我发现的所有内容并不能很好地解释这个概念。
假设我们在NLP任务中使用了自注意力,所以我们的输入是一个句子。
然后,自我注意力可以用来衡量句子中每个单词对每个其他单词的“重要性”。
问题是我不了解如何衡量“重要性”。重要的是什么?
训练自注意力算法中的权重的目标向量到底是什么?
答案 0 :(得分:1)
将具有潜在含义的语言连接起来称为基础。诸如“球在桌子上”之类的句子产生了可以通过多模式学习进行复制的图像。多模态意味着可以使用不同种类的词,例如事件,动作词,主题等。自我注意机制可以将输入向量映射到输出向量,并且它们之间是一个神经网络。神经网络的输出向量参考了实际情况。
让我们举一个简短的例子。我们需要一个300x200的像素图像,我们需要一个自然语言的句子,并且需要一个解析器。解析器可以双向工作。他可以将文本转换为图像,这意味着将“球在桌子上”的句子转换为300x200图像。但是也可以解析给定的图像并提取自然句。自我注意学习是学习和使用扎根关系的一种引导技术。这意味着需要验证现有的语言模型,学习新的语言模型并预测未来的系统状态。