应用错误收集

时间：2017-01-20 16:10:22

标签： nlp opennlp stanford-nlp

让我们说我们有一篇文章想要注释。如果我们将文本输入为一个非常长的句子而不是文档，那么斯坦福在注释一个长句而不是循环遍历文档中的每个句子并最终将所有结果结合在一起之间做了什么不同的事情？

编辑：我进行了测试，似乎这两种方法返回了两个不同的NER集。我可能只是做错了，但它确实非常有趣，我很好奇为什么会这样。

答案 0 :(得分：0)

确认：你的意思是斯坦福CoreNLP（而不是Apache OpenNLP），对吗？

Sentence和Document之间CoreNLP Simple API的主要区别在于标记化。 Sentence将强制整个文本被视为单个句子，即使它有标点符号。 Document首先将文本标记为句子列表，然后为每个句子添加注释。

请注意，对于像选区解析器这样的注释器，非常长的句子需要花费很长时间来注释。另请注意，共指仅适用于文档，而不适用于句子。