我在理解bias
在tensor2tensor
,特别是multihead_attention
或dot_product_attention
中的工作方式时遇到了问题。我想将其用作解决问题的库。
假设我有一个输入张量T
,其维度为(batch, max_input_length, hidden_unit)
,用于一批句子S
。我还有一个张量sequence_length
,其维数为(batch)
,其中提到S
中每个句子的长度。现在如何为该bias
准备input
向量?
我想为bias
计算self_attention
向量,这意味着q
,k
,v
相同时。
另一件事,
如果bias
不同并且q
,k
相同,v
会怎样?这是cross_attention
。我认为在这种情况下,我们必须计算k
的偏差向量。但是我不确定。