输出斯坦福NLP结果的最佳方式

时间:2014-06-04 03:26:49

标签: java nlp output processing stanford-nlp

嗨大家好:我正在使用Stanford CoreNLP软件处理不同人的数百封信件(每封约10KB)。获得输出后,我需要进一步处理它并在标记,句子和字母级别添加信息。我对NLP很陌生,并想知道从Stanford CoreNLP输出管道结果以允许进一步处理的典型或最佳方法是什么?

我猜测典型的方法是输出到XML。如果我这样做,我估计这需要大约1 GB的磁盘空间,我想,那么,将这么多的XML加载到Java中以便进一步处理和添加信息会有多快和简单?

另一种方法可能是让CoreNLP序列化它生成的注释对象并将其加载回来进行处理。一个优点:不必弄清楚如何将句子解析字符串转换回树进行进一步处理。缺点:注释对象包含许多不同类型的对象,我在操作方面仍然非常粗糙,而斯坦福CoreNLP中的文档对我来说似乎很渺茫。

1 个答案:

答案 0 :(得分:0)

这真的是你事后要做的事情。进行序列化可能是最简单快速的方法,因为您需要了解CoreNLP数据结构。

如果您希望以其他语言阅读或读入您自己的数据结构,请另存为XML。

我会先走第一条路。