如何在OpenNLP中对句子进行标记时跳过短语?

时间:2016-03-11 20:59:08

标签: java nlp text-mining opennlp

我正在使用OpenNLP JAVA API进行句子标记,它使用空格字符来标记句子并分割每个单词。

有没有办法可以跳过某些特定单词的单词拆分或标记化。

例如句子。 "一只快速的棕色狐狸跳过懒狗"。 OpenNLP将句子分割/标记为

一个
快速
棕色
狐狸
跳跃

该 懒

我想跳过这个词的标记化"快速的棕色狐狸"和"懒狗" ,所以预期的输出将是

一个
快速棕色狐狸
跳跃


懒狗

1 个答案:

答案 0 :(得分:0)

有人认为,因为看起来你想要跳过名词短语,就是使用SentenceChunker来识别名词短语。您可以在从标记生成器返回的句子块中使用相同的跨度/标记,然后根据块类型调整标记数组。看看这个

How to identify PP-tags/NP-tags/VP-tags in openNLP chunker?