我想知道,我有10个自定义实体来识别我应该给多少个带注释的训练句子(任何粗略的想法)??
谢谢,提前!! :)
我对此很陌生,请帮助
答案 0 :(得分:1)
为开发自定义神经元模型,每个实体至少需要出现50-100次,以及它们的适当上下文。否则,如果您的数据量少于自定义模型的数据量,则将过度拟合该数据。因此,根据您的数据,您至少需要200到300个句子。
答案 1 :(得分:1)
对于Spacy的自定义NER模型,对于每个实体,您肯定会需要大约100个样本,而且在数据集中也没有任何偏差。
所有这些都是根据我的经验
建议-: 您可以探索Spacy自定义模型,但是对于生产级别或某个好的项目,您不能仅完全依赖于此模型,还必须执行一些NLP /关系提取等。
希望这会有所帮助。