我想在spaCy随附的现有大型英语语言模型中向NER添加和更新实体。为了避免“灾难性学习问题”,docs建议在重新训练模型时包括现有的实体注释。除了使用我的文字中带有一些新标签的示例外,我的想法是包括原始训练数据的样本,以便尽可能地保持初始实体的性能。
我看到了this question中指向Wikipedia数据集的链接。但是我想知道spaCy随附的模型是否有中央存储库?
非常感谢,
所以我看到的一个选择是:1)应用预训练的NER来预测新文本中的实体,2)在新文本中标记一些新类实体,3)训练更新模型使用预测实体和标记实体的混合物。但是,我不确定使用这种方法,因为不能保证预测的实体正确无误-因此会降低模型的质量。
github上的模型细节给出了一些指示。对于en_core_web_lg-2.1.0模型,引用的源是OntoNotes 5(用于文本注释),Common Crawl(用于Glove)。我仍然想知道是否存在文本注释,当更新按训练的模型时,这些注释将非常有用。