我无法使用Stanford NLP WordsToSentencesAnnotator在\ n或\ r \ n上分割句子。我只是尝试使用此处描述的代码:http://nlp.stanford.edu/software/sutime.shtml,但我使用自定义拆分器
public static void main(String[] args) {
Properties props = new Properties();
AnnotationPipeline pipeline = new AnnotationPipeline();
pipeline.addAnnotator(new PTBTokenizerAnnotator(false));
pipeline.addAnnotator(new WordsToSentencesAnnotator(false,"\n"));
pipeline.addAnnotator(new POSTaggerAnnotator(false));
pipeline.addAnnotator(new TimeAnnotator("sutime", props));
...
我正在使用版本1.3.5的corenlp jar。我也尝试使用\ r,\ r \ n等代替\ n,但似乎没有任何工作。有什么帮助吗?
答案 0 :(得分:2)
嗯,这不是我构建管道的方式,但你试过吗
WordsToSentencesAnnotator newlineSplitter(false, "\n");
所以,我会尝试更多的东西:
Properties props = new Properties();
props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner");
StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
与管道交互。 " SUTime注释通过包含ner注释器自动提供给StanfordCoreNLP管道"根据斯坦福NLP页面,因此您应该能够完成同样的事情。你的句子分裂注释器是ssplit。以下选项适用于ssplit(再次从Stanford NLP页面获取):