我使用OpenNLP从一大块文本中提取名词短语。不幸的是,OpenNLP的文档非常令人困惑。
目前,我有两个数组:一个带有标记化文本,另一个带有标记化文本的POS标记。我将这两个字符串输入到chunker函数中,但是chunker只是将文本中的单词标记为O,B-PP,B-NP,I-NP等。
我想要做的是拥有一个字符串数组,其中只包含文本中的名词短语,而不是将标记化文本标记为不同短语的字符串数组。在OpenNLP中是否已经存在某种函数可以在字符串数组中返回名词短语(甚至在数组结构以外的数据结构中)?
这看起来像一个相关的帖子,但我不认为我们正在做同样的事情,因为他们正在使用解析树来实现他们的目标。 How to extract the noun phrases using Open nlp's chunking parser
非常感谢任何帮助。提前谢谢!