在微调BERT时是否绝对需要特殊令牌[CLS] [SEP]?

时间:2020-09-29 23:13:27

标签: bert-language-model ner cls

我正在按照教程https://www.depends-on-the-definition.com/named-entity-recognition-with-bert/使用BERT进行命名实体识别。

在进行微调时,在将令牌提供给模型之前,作者会这样做:

input_ids = pad_sequences([tokenizer.convert_tokens_to_ids(txt) for txt in tokenized_texts],
                          maxlen=MAX_LEN, dtype="long", value=0.0,
                          truncating="post", padding="post")

根据我的测试,这不会在ID中添加特殊标记。那么,我是否缺少某些内容?还是我不一定总是包含[CLS](101)[SEP](102)?

1 个答案:

答案 0 :(得分:0)

我也在关注本教程。它对我有用,而无需添加这些标记,但是,我在另一个教程(https://vamvas.ch/bert-for-ner)中发现,最好添加它们,因为模型是用这种格式训练的。

[更新] 实际上只是检查了一下,结果发现添加令牌后,准确性提高了20%。但是请注意,我正在其他数据集上使用它