BERT句子嵌入:如何获取句子嵌入向量

时间:2019-12-13 22:31:54

标签: keras nlp embedding word-embedding sentence

我正在使用模块bert-for-tf2来将BERT模型包装为Tensorflow 2.0中的Keras层。我已经按照您的指南将BERT模型实现为Keras层。 我正在尝试从句子中提取嵌入内容;在我的情况下,句子是“你好”

我对模型预测的输出有疑问;我已经写了这个模型:

model_word_embedding = tf.keras.Sequential([
                tf.keras.layers.Input(shape=(4,), dtype='int32', name='input_ids'),
                bert_layer
])

model_word_embedding .build(input_shape=(None, 4))

然后我要提取上面所写句子的嵌入:

sentences = ["Hello"]
predict = model_word_embedding .predict(sentences)

对象预测包含4个数组,每个数组包含768个元素:

print(predict)
print(len(predict))
print(len(predict[0][0]))
...

[[[-0.02768866 -0.7341324   1.9084396  ... -0.65953904  0.26496622
    1.1610721 ]
  [-0.19322394 -1.3134469   0.10383344 ...  1.1250225  -0.2988368
   -0.2323082 ]
  [-1.4576151  -1.4579685   0.78580517 ... -0.8898649  -1.1016986
    0.6008501 ]
  [ 1.41647    -0.92478925 -1.3651332  ... -0.9197768  -1.5469263
    0.03305872]]]
4
768

我知道那个4的每个数组代表我的原始句子,但是我想获得一个数组作为我的原始句子的嵌入。 因此,我的问题是:如何获得句子的嵌入?

在BERT源代码中,我读到了这一点:

  

对于分类任务,第一个向量(对应于[CLS])用作“句子向量”。请注意,这仅是有意义的,因为整个模型都经过了微调。

所以我必须从预测输出中提取第一个数组,因为它代表了我的句子矢量?

感谢您的支持

1 个答案:

答案 0 :(得分:0)

我们应该使用最后隐藏状态中的[CLS]作为BERT的句子嵌入。根据BERT论文,[CLS]代表维度768的编码语句。下图更详细地表示[CLS]的使用。考虑到你有2000个句子。

#input_ids consist of all sentences padded to max_len. 
last_hidden_states = model(input_ids)
features = last_hidden_states[0][:,0,:].numpy() # considering o only the [CLS] for each sentences 
features.shape
# (2000, 768) dimension

enter image description here