在BERT预训练中,[CLS]令牌被嵌入到下一个句子预测任务(或者在某些BERT变体中,还有其他任务,例如ALBERT的句子顺序预测)的分类器的输入中;这不仅有助于整个变压器的预训练,而且还有助于使[CLS]位置易于重新训练用于其他“句子量表”任务。
我想知道[SEP]是否也可以以相同的方式再培训。 尽管[CLS]可能会更容易接受重新训练,因为已经训练了转换器以使句子中的含义充满其嵌入,而[SEP]没有这些“连接”(可能会假设),但这可能仍然足够有效微调。
通过这种方式,可以针对两个不同的分类任务重新训练相同的模型,一种使用[CLS],另一种使用[SEP]。
我错过了什么吗? 有什么理由为什么这行不通?
答案 0 :(得分:2)
从理论上讲,它可以给出“一些”结果,因此它可以工作(这只是一个令牌),但是问题是为什么您要这么做。这些令牌已针对特定目的进行了预培训。我想所谓的“重新训练”是指微调,因此,如果您突然将SEP令牌作为分类令牌进行微调,我认为您不会获得良好的结果,因为您只是在整个语言模型中对一个令牌进行了微调。甚至没有预先训练的任务。