应用错误收集

我在理解bias在tensor2tensor，特别是multihead_attention或dot_product_attention中的工作方式时遇到了问题。我想将其用作解决问题的库。

假设我有一个输入张量T，其维度为(batch, max_input_length, hidden_unit)，用于一批句子S。我还有一个张量sequence_length，其维数为(batch)，其中提到S中每个句子的长度。现在如何为该bias准备input向量？

我想为bias计算self_attention向量，这意味着q，k，v相同时。

另一件事，如果bias不同并且q，k相同，v会怎样？这是cross_attention。我认为在这种情况下，我们必须计算k的偏差向量。但是我不确定。