使用spacy python的自定义NER需要多少训练数据(句子)?

时间:2019-12-26 12:25:00

标签: python machine-learning spacy ner

我想知道,我有10个自定义实体来识别我应该给多少个带注释的训练句子(任何粗略的想法)??

谢谢,提前!! :)

我对此很陌生,请帮助

2 个答案:

答案 0 :(得分:1)

为开发自定义神经元模型,每个实体至少需要出现50-100次,以及它们的适当上下文。否则,如果您的数据量少于自定义模型的数据量,则将过度拟合该数据。因此,根据您的数据,您至少需要200到300个句子。

答案 1 :(得分:1)

对于Spacy的自定义NER模型,对于每个实体,您肯定会需要大约100个样本,而且在数据集中也没有任何偏差。

所有这些都是根据我的经验

建议-: 您可以探索Spacy自定义模型,但是对于生产级别或某个好的项目,您不能仅完全依赖于此模型,还必须执行一些NLP /关系提取等。

希望这会有所帮助。