我正在尝试使用core-nlps的DocumentPreprocessor方法将给定的文本拆分成句子。
以下是我正在使用的代码。
List<String> splitSentencesList = new ArrayList<>();
Reader reader = new StringReader(inputText);
DocumentPreprocessor dp = new DocumentPreprocessor(reader);
for(List<HasWord> sentence :dp){
splitSentencesList.add(Sentence.listToString(sentence).toLowerCase().replace(" .", ""));}
这适用于大多数情况。但是,我们如何处理句子中的连词?
E.g:
I like coffee and donuts for my breakfast.
理想情况下,应进一步处理:
I like coffee for my breakfast.
I like donuts for my breakfast.
一种选择是执行基于正则表达式的规则以进一步拆分它们。是否有任何内置方法可以在core-nlp中实现这一目标。
对此的任何指示表示赞赏。