BERT层序列输出如何使用?

时间:2020-02-19 05:37:33

标签: python tensorflow deep-learning

我正在阅读this Kaggle notebook

在DisasterDetector类的build_model()中,clf_output = sequence_output[:, 0, :] 。然后应用S型激活以生成模型输出。

tfhub上获得BertLayer的位置将sequence_output的形状描述为[batch_size, max_seq_length, 768]。为什么我们只选择max_seq_length维度上的第一个索引(索引为0)?如果这仅对应于输出序列中的第一个标记,而不对应于其他标记,为什么在二进制分类任务中使用它?

1 个答案:

答案 0 :(得分:0)

输出序列的第一个标记来自输入的第一个,即e。 [CLS]。 [CLS]被视为整个输入序列的表示。 您可以阅读原始论文以更好地理解它。