我经常看到IOB标记方案的变体,例如文档中提到的用于分块的IOB,BIO,IOBES,NER等。我尝试仅使用BI标签在二进制分类设置中检测语素边界(分段)并获得高F1加入O标签时得分低得多。仅使用BI标签有任何缺点吗?为什么我没有看到人们使用它?
答案 0 :(得分:0)
BI或IO易于实现,但对于NER任务,它应比IOBES差。
您是否尝试过使用其他标记方案?直观地讲,更精细的方案更适合于较长的序列。对于NER,据报道 BIO 或 IOBES 可以达到明显更高的F1分数或良好的经验法则。您也可以尝试 BILOU 或 BIL2 ,它们在SOV语言(日语,韩语,乌尔都语)上显示出良好的效果。