我创建了一些训练数据(大约300个样本)以对配方成分进行NER,并遵循https://spacy.io/usage/training#example-train-ner上的代码示例。当在测试数据集上预测术语时,新创建的模型表现不错,但是将模型保存到磁盘并再次加载后,效果并不理想。我一定会丢失一些有关将模型保存到磁盘的信息,这会降低很多准确性。在运行nlp.to_disk
之前我应该做些什么吗?还是需要设置一些选项?
例如,保存之前的新模型将产生以下输出:
2 pounds tomatillos (about 15 medium), husks removed
Entities:
2 = QUANTITY
pounds = UNIT
tomatillos = INGREDIENT
(about 15 medium) = COMMENT
husks removed = COMMENT
以及保存和加载后(如示例代码中所示):
2 pounds tomatillos (about 15 medium), husks removed
Entities:
2 pounds tomatillos (about 15 medium), husks removed = COMMENT
答案 0 :(得分:0)
修正应尽快发布。 v2.1发行版相当大,因此我们进行了一些回归分析。我以为我们已经对此进行了测试,因为该代码区域以前曾引起过问题,但显然它还是漏掉了。