我使用BERT上的Chris Mccormick教程,使用pytorch-pretained-bert
来嵌入如下句子:
tokenized_text = tokenizer.tokenize(marked_text)
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
segments_ids = [1] * len(tokenized_text)
tokens_tensor = torch.tensor([indexed_tokens])
segments_tensors = torch.tensor([segments_ids])
model = BertModel.from_pretrained('bert-base-uncased')
model.eval()
with torch.no_grad():
encoded_layers, _ = model(tokens_tensor, segments_tensors)
# Holds the list of 12 layer embeddings for each token
# Will have the shape: [# tokens, # layers, # features]
token_embeddings = []
# For each token in the sentence...
for token_i in range(len(tokenized_text)):
# Holds 12 layers of hidden states for each token
hidden_layers = []
# For each of the 12 layers...
for layer_i in range(len(encoded_layers)):
# Lookup the vector for `token_i` in `layer_i`
vec = encoded_layers[layer_i][batch_i][token_i]
hidden_layers.append(vec)
token_embeddings.append(hidden_layers)
现在,我试图通过将最后4层的总和如下来获得最终句子的嵌入:
summed_last_4_layers = [torch.sum(torch.stack(layer)[-4:], 0) for layer in token_embeddings]
但是我没有得到一个长度为768的火炬矢量,而是得到了以下内容:
[tensor([-3.8930e+00, -3.2564e+00, -3.0373e-01, 2.6618e+00, 5.7803e-01,
-1.0007e+00, -2.3180e+00, 1.4215e+00, 2.6551e-01, -1.8784e+00,
-1.5268e+00, 3.6681e+00, ...., 3.9084e+00]), tensor([-2.0884e+00, -3.6244e-01, ....2.5715e+00]), tensor([ 1.0816e+00,...-4.7801e+00]), tensor([ 1.2713e+00,.... 1.0275e+00]), tensor([-6.6105e+00,..., -2.9349e-01])]
我在这里得到了什么?如何合并最后一层的总和?
谢谢!
答案 0 :(得分:2)
您可以使用遍历token_embeddings
的列表理解来创建列表。此列表包含每个令牌一个张量-而不是您可能想到的(根据for layer in token_embeddings
判断的每个层一个张量)。因此,您将获得一个长度等于令牌数的列表。对于每个令牌,您都有一个向量,该向量是最后4层BERT嵌入的总和。
更有效的方法是避免显式的for循环和列表理解:
summed_last_4_layers = torch.stack(encoded_layers[-4:]).sum(0)
现在,变量summed_last_4_layers
包含相同的数据,但是以单个张量维的形式:句子的长度×768。
要获得单个(即合并的)向量,可以在张量的第一维上进行合并。在这种情况下,平均池的最大池比将所有令牌嵌入相加要有意义得多。当对这些值求和时,不同长度的句子的向量在不同的范围内,实际上并没有可比性。