应用错误收集

按句子或段落训练和评估spaCy模型

时间：2017-09-19 18:24:22

标签： nlp training-data spacy

观察：

段落：I love apple. I eat one banana a day
句子：I love apple.，I eat one banana a day
本段中有两个句子I love apple和I eat one banana a day。如果我将整个段落放入spaCy，它只会识别一个实体，例如apple，但如果我将句子逐个放入，spaCy可以识别两个实体apple和banana。（这只是表明我的观点的一个例子，实际识别结果可能不同）

情况：

在我自己训练模型后，我想评估模型的识别准确性，有两种方法可以将文本传递给spaCy模型：
1.将段落分成句子并逐句传递for sentence in paragraph: doc = nlp(sentence) # retrieve the parsing result 2.立即通过该段落 doc = nlp(paragraph) # retrieve the parsing result

问题：

我想知道哪种方式可以更好地测试模型的性能？因为我确信通过句子传递总能识别出比通过段落更多的实体。
如果第二个更好，我还需要改变训练模型的方式吗？目前，我逐句训练spacy模型而不是段落。

我的项目的目标：

获取文档后，识别我对文档感兴趣的所有实体。

谢谢！

0 个答案:

没有答案