如何使用BERT中的嵌入比较句子相似度

时间:2020-03-02 16:20:07

标签: python vector nlp cosine-similarity huggingface-transformers

我正在使用HuggingFace Transformers软件包访问预训练的模型。由于我的用例需要英语和阿拉伯语的功能,因此我使用了bert-base-multilingual-cased预训练模型。我需要能够使用诸如余弦相似度之类的语句来比较句子的相似度。要使用此功能,我首先需要为每个句子获取一个嵌入向量,然后可以计算余弦相似度。

首先,从BERT模型中提取语义嵌入的最佳方法是什么?喂完句子后,采用模型的最后隐藏状态就足够了吗?

import torch
from transformers import BertModel, BertTokenizer

model_class = BertModel
tokenizer_class = BertTokenizer
pretrained_weights = 'bert-base-multilingual-cased'

tokenizer = tokenizer_class.from_pretrained(pretrained_weights)
model = model_class.from_pretrained(pretrained_weights)

sentence = 'this is a test sentence'

input_ids = torch.tensor([tokenizer.encode(sentence, add_special_tokens=True)])
with torch.no_grad():
    output_tuple = model(input_ids)
    last_hidden_states = output_tuple[0]

print(last_hidden_states.size(), last_hidden_states)

第二,如果这是从句子中获取嵌入的足够方法,那么我现在还有另一个问题,其中嵌入向量的长度取决于原始句子的长度而不同。输出的形状为[1, n, vocab_size],其中n可以具有任何值。

为了计算两个向量的余弦相似度,它们的长度必须相同。我该怎么办?像第一次对axis=1求和一样幼稚的方法仍然可行吗?我还有什么其他选择?

2 个答案:

答案 0 :(得分:13)

除了已经很好接受的答案之外,我想向您指出sentence-BERT,它更详细地讨论了相似性方面和特定度量(例如余弦相似性)的含义。 他们在线上也有very convenient implementation。这里的主要优点是,与“幼稚”的句子嵌入比较相比,它们似乎获得了很多处理速度,但是我对实现本身还不够熟悉。

重要的是,您通常要在什么样的相似性中找到更细粒度的区别。为此,SemEval 2014(SICK数据集)的task papers之一中也进行了精彩的讨论,对此进行了更详细的介绍。从您的任务描述中,我假设您已经在使用来自以后SemEval任务之一的数据,该任务也将其扩展到了多语言相似性。

答案 1 :(得分:5)

您可以使用[CLS]令牌来表示整个序列。该令牌通常在预处理步骤中加在句子前。该令牌通常用于分类任务(请参见BERT paper中的图2和第3.2段)。

这是嵌入的第一个令牌。

或者,您可以获取序列的平均向量(就像您在first(?)轴上所说的那样),根据huggingface documentation(第三个技巧),可以产生更好的结果。

请注意,BERT并不是针对使用余弦距离的句子相似性而设计的,尽管根据我的经验,它的确产生了不错的结果。