java API中的-sentenceDelimiter换行符

时间:2015-07-27 10:16:03

标签: java nlp tokenize

我可以从命令行运行POS tagger以保留新行

java -classpath stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/wsj-0-18-bidirectional-distsim.tagger -sentenceDelimiter newline -textFile input.txt > output.txt 

给出参数“-sentenceDelimiter newline”。但是我想知道如何在使用API​​的java程序中做什么?

我在FAQ中看到,我们可以设置ssplit.newlineIsSentenceBreak,但不知道如何设置它。

感谢任何帮助或建议。

我想用一行标记这种句子。

 "what is your name?" he asked.

因为一行可能包含许多句子标记。

非常感谢。 施瑞斯塔

1 个答案:

答案 0 :(得分:1)

您可以使用ssplit.eolonly属性。根据{{​​3}},它意味着“只对换行符进行拆分。与'-tokenize.whitespace true'结合使用效果很好,在这种情况下,StanfordCoreNLP会将输入视为每行一个句子,只分隔空格上的单词。“

props.setProperty("ssplit.eolonly", "true");
pipeline = new StanfordCoreNLP(props);