哪种标记格式最适合培训Stanford NER(IO / IOB)?

时间:2019-12-18 11:37:49

标签: crf

我已经培训了Stanford NER从文本中提取组织名称。我使用了IO标记格式。工作正常。但是,我想知道将标签格式更改为IOB(或其他格式)是否可以提高得分。 ?

1 个答案:

答案 0 :(得分:1)

假设您的句子缺少正常的标点符号,例如:

  

John Sam Ted都在这里。

如果您没有B标签,您将无法判断这是三个实体还是一个包含三个单词的实体。

另一方面,对于许多常见类型的实体,它们不能仅以普通的英文文本一起运行,因为它们之间至少要有一个逗号。

如果可以进行设置,则最好是在实体同时运行的情况下使用IOB,但是根据数据集,这可能不是问题。您必须查看要说明的数据。