我可以从命令行运行POS tagger以保留新行
java -classpath stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/wsj-0-18-bidirectional-distsim.tagger -sentenceDelimiter newline -textFile input.txt > output.txt
给出参数“-sentenceDelimiter newline”。但是我想知道如何在使用API的java程序中做什么?
我在FAQ中看到,我们可以设置ssplit.newlineIsSentenceBreak,但不知道如何设置它。
感谢任何帮助或建议。
我想用一行标记这种句子。
"what is your name?" he asked.
因为一行可能包含许多句子标记。
非常感谢。 施瑞斯塔
答案 0 :(得分:1)
您可以使用ssplit.eolonly
属性。根据{{3}},它意味着“只对换行符进行拆分。与'-tokenize.whitespace true'结合使用效果很好,在这种情况下,StanfordCoreNLP会将输入视为每行一个句子,只分隔空格上的单词。“
props.setProperty("ssplit.eolonly", "true");
pipeline = new StanfordCoreNLP(props);