我正在按照教程https://www.depends-on-the-definition.com/named-entity-recognition-with-bert/使用BERT进行命名实体识别。
在进行微调时,在将令牌提供给模型之前,作者会这样做:
input_ids = pad_sequences([tokenizer.convert_tokens_to_ids(txt) for txt in tokenized_texts],
maxlen=MAX_LEN, dtype="long", value=0.0,
truncating="post", padding="post")
根据我的测试,这不会在ID中添加特殊标记。那么,我是否缺少某些内容?还是我不一定总是包含[CLS](101)[SEP](102)?
答案 0 :(得分:0)
我也在关注本教程。它对我有用,而无需添加这些标记,但是,我在另一个教程(https://vamvas.ch/bert-for-ner)中发现,最好添加它们,因为模型是用这种格式训练的。
[更新] 实际上只是检查了一下,结果发现添加令牌后,准确性提高了20%。但是请注意,我正在其他数据集上使用它