在SpacyV1中,可以通过提供BILOU格式的文档和实体注释列表来训练NER模型。
然而,似乎在V2训练中只能通过提供像这样的实体注释(7,13,'LOC'),所以使用enity偏移和实体标签。
以BILOU格式提供令牌列表和另一个实体标签列表的旧方法是否仍然有效?
从我从文档中收集的内容看起来nlp.update方法接受GoldParse对象列表,因此我可以为每个doc创建一个GoldParse对象,并将BILOU标记传递给它的entities属性。但是,如果忽略GoldParse类的其他属性(例如头部或标签https://spacy.io/api/goldparse)或者培训NER不需要的其他属性,我会丢失重要信息吗?
谢谢!
答案 0 :(得分:3)
是的,您仍然可以使用BILUO标记创建GoldParse
个对象。使用示例的主要原因显示"更简单"偏移格式使它们更容易阅读和理解。
如果您只想训练NER,现在还可以使用nlp.disable_pipes()
context manager并在训练期间禁用所有其他管道组件(例如'tagger'
和'parser'
)。在块之后,组件将被恢复,因此当您保存模型时,它将包括整个管道。您可以在NER training examples。
答案 1 :(得分:-1)
如何训练使用GoldParse对象?我已经尝试了一段时间,我无法理解。