如何在tensor2tensor中准备“ bias”向量?

时间:2019-02-19 13:52:01

标签: tensorflow tensor2tensor

我在理解biastensor2tensor,特别是multihead_attentiondot_product_attention中的工作方式时遇到了问题。我想将其用作解决问题的库。

假设我有一个输入张量T,其维度为(batch, max_input_length, hidden_unit),用于一批句子S。我还有一个张量sequence_length,其维数为(batch),其中提到S中每个句子的长度。现在如何为该bias准备input向量?

我想为bias计算self_attention向量,这意味着qkv相同时。

另一件事,  如果bias不同并且qk相同,v会怎样?这是cross_attention。我认为在这种情况下,我们必须计算k的偏差向量。但是我不确定。

0 个答案:

没有答案