问题:
如何强制斯坦福NLP的WordsToSentencesAnnotator在点上分割句子?我尝试添加-ssplit.boundaryMultiTokenRegex "//."
,但它仍然无法一直在.
上分割。
我在Windows 7 SP1 x64 Ultimate上使用Stanford CoreNLP version 3.5.2 (2015-04-20)和Java 1.8.0_25 x64。
示例:
我的文字包含两句话:D R E L I N. Okay.
我使用Stanford NLP的WordsToSentencesAnnotator通过命令行界面将文本分割成句子:
java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP
-annotators tokenize,ssplit -file test.txt
它只返回一个句子D R E L I N. Okay.
而不是两个句子['D R E L I N.', 'Okay.']
,。i.e。查看输出XML文件,节点sentences
只有一个sentence
子项: