使用“ en_core_web_sm”作为基础模型训练Spacy NER模型

时间:2019-09-11 13:54:02

标签: machine-learning nlp spacy ner

我正在使用Spacy来训练带有新实体的NER模型,并使用“ en_core_web_sm”模型作为基本模型,因为我还想检测基本实体(ORG,PERSON,DATE等)。我对未标记的句子运行了“ en_core_web_sm”模型,并将其注释添加到我的训练集中。

完成之后,现在我想为新实体创建训练数据。例如,我要添加一个名为“ FRUIT”的新实体。我有一堆要注释的句子(除了那些之前用'en_core_web_sm'注释过的句子)。句子示例是“詹姆斯喜欢吃苹果”。我的问题是:我仍然需要将“ James”注释为PERSON以及将“ apples”注释为FRUIT吗?还是我不需要这样做,因为我早先已经有另外一堆用PERSON实体使用“ en_core_web_sm”模型注释的句子。

谢谢!

1 个答案:

答案 0 :(得分:0)

简短答案:

是的,如果您想保持模型的精确度。

长答案:

NER是使用机器学习算法实现的。这些根据学习到的分布和周围的令牌将令牌分类为实体。

因此,如果您提供多个带注释文本的示例,而没有将单词(令牌)标记为通常代表的特定实体,则可能会通过向该令牌不重要的模型提供示例来影响模型的精度。