Question

我正在按照教程https://www.depends-on-the-definition.com/named-entity-recognition-with-bert/使用BERT进行命名实体识别。

在进行微调时，在将令牌提供给模型之前，作者会这样做：

input_ids = pad_sequences([tokenizer.convert_tokens_to_ids(txt) for txt in tokenized_texts],
                          maxlen=MAX_LEN, dtype="long", value=0.0,
                          truncating="post", padding="post")

根据我的测试，这不会在ID中添加特殊标记。那么，我是否缺少某些内容？还是我不一定总是包含[CLS]（101）[SEP]（102）？

Answer 1

我也在关注本教程。它对我有用，而无需添加这些标记，但是，我在另一个教程（https://vamvas.ch/bert-for-ner）中发现，最好添加它们，因为模型是用这种格式训练的。

[更新] 实际上只是检查了一下，结果发现添加令牌后，准确性提高了20％。但是请注意，我正在其他数据集上使用它

在微调BERT时是否绝对需要特殊令牌[CLS] [SEP]？

1 个答案: