迫使斯坦福NLP的WordsToSentencesAnnotator在点上分割句子

时间:2015-06-16 01:13:35

标签: regex nlp stanford-nlp

问题

如何强制斯坦福NLP的WordsToSentencesAnnotator在点上分割句子?我尝试添加-ssplit.boundaryMultiTokenRegex "//.",但它仍然无法一直在.上分割。

我在Windows 7 SP1 x64 Ultimate上使用Stanford CoreNLP version 3.5.2 (2015-04-20)和Java 1.8.0_25 x64。

示例

我的文字包含两句话:D R E L I N. Okay.

我使用Stanford NLP的WordsToSentencesAnnotator通过命令行界面将文本分割成句子:

java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP 
             -annotators tokenize,ssplit  -file test.txt

它只返回一个句子D R E L I N. Okay.而不是两个句子['D R E L I N.', 'Okay.'],。i.e。查看输出XML文件,节点sentences只有一个sentence子项:

enter image description here

0 个答案:

没有答案