关于改善SpaCy 2.2.3中的NER召回的建议

时间:2019-12-20 19:06:07

标签: spacy

我正在寻找有关在SpaCy的自定义NER培训中改善召回(可能通过超参数或其他优化器)的建议。

我目前正在培训SpaCy 2.2.3,以提取美国股票行情记录作为自定义实体类型。我已经培训了大约40K条带有新闻标记的新闻故事,并尝试了使用默认超参数的默认Adam优化器。

训练30个纪元后的统计数据(尽管我发现它们也与20个纪元相似)在测试集上如下: f1:0.8024804229439122 精度:0.9800634345265066 召回:0.6793798936575954

我对精度非常满意,但是正在寻找有关提高召回率的建议。

是否有关于调整默认超参数,优化程序或训练方法的建议?

谢谢!

1 个答案:

答案 0 :(得分:2)

您不能专门通过spacy来提高召回率,但是可以通过监视F1分数来解决。将F1得分高的模型保存在验证数据集上。回想一下,这样您将具有良好的精度。

由于精度和召回率是互斥的,因此您的精度可能会受到影响,但您将拥有比当前更好的精度。

有关更多参考:https://github.com/explosion/spaCy/issues/3965https://github.com/explosion/spaCy/issues/3706