我正在使用OpenNLP JAVA API进行句子标记,它使用空格字符来标记句子并分割每个单词。
有没有办法可以跳过某些特定单词的单词拆分或标记化。
例如句子。 "一只快速的棕色狐狸跳过懒狗"。 OpenNLP将句子分割/标记为
一个
快速
棕色
狐狸
跳跃
在
该
懒
狗
我想跳过这个词的标记化"快速的棕色狐狸"和"懒狗" ,所以预期的输出将是
一个
快速棕色狐狸
跳跃
在
该
懒狗
答案 0 :(得分:0)
有人认为,因为看起来你想要跳过名词短语,就是使用SentenceChunker来识别名词短语。您可以在从标记生成器返回的句子块中使用相同的跨度/标记,然后根据块类型调整标记数组。看看这个