我正在阅读this Kaggle notebook。
在DisasterDetector类的build_model()中,clf_output = sequence_output[:, 0, :]
。然后应用S型激活以生成模型输出。
从tfhub上获得BertLayer的位置将sequence_output的形状描述为[batch_size, max_seq_length, 768]
。为什么我们只选择max_seq_length维度上的第一个索引(索引为0)?如果这仅对应于输出序列中的第一个标记,而不对应于其他标记,为什么在二进制分类任务中使用它?
答案 0 :(得分:0)
输出序列的第一个标记来自输入的第一个,即e。 [CLS]。 [CLS]被视为整个输入序列的表示。 您可以阅读原始论文以更好地理解它。