我想逐步训练NER Spacy模型。
通过递增,我的意思是发送第一批N个训练样本,获取第一个模型,然后发送第二批M个训练样本,并获得相同的模型,就好像N + M个样本将被分批发送,训练过的模型。
需要明确的是,这与在模型经过全面训练后添加样本无关。相反,它可以在模型中保存中间状态,因此我们可以“恢复”并添加更多训练样本。
如果样本数量很大或创建“主动学习”系统,这将非常有用。
根据this article,NLTK似乎可行:而且我想知道Spacy是否可以做到这一点。
到目前为止,我已经使用nlp.update用Spacy训练了自己的自定义NER模型,但似乎没有存储任何支持增量训练的中间状态。