按句子或段落训练和评估spaCy模型

时间:2017-09-19 18:24:22

标签: nlp training-data spacy

观察:

段落:I love apple. I eat one banana a day
句子:I love apple.I eat one banana a day
本段中有两个句子I love appleI eat one banana a day。如果我将整个段落放入spaCy,它只会识别一个实体,例如apple,但如果我将句子逐个放入,spaCy可以识别两个实体applebanana。(这只是表明我的观点的一个例子,实际识别结果可能不同

情况:

在我自己训练模型后,我想评估模型的识别准确性,有两种方法可以将文本传递给spaCy模型:
1.将段落分成句子并逐句传递 for sentence in paragraph: doc = nlp(sentence) # retrieve the parsing result 2.立即通过该段落 doc = nlp(paragraph) # retrieve the parsing result

问题:

  1. 我想知道哪种方式可以更好地测试模型的性能?因为我确信通过句子传递总能识别出比通过段落更多的实体。
  2. 如果第二个更好,我还需要改变训练模型的方式吗?目前,我逐句训练spacy模型而不是段落。
  3. 我的项目的目标:

    获取文档后,识别我对文档感兴趣的所有实体。

    谢谢!

0 个答案:

没有答案