我正在尝试使用stanford解析器处理许多文本片段。我使用此命令输出到xml
java -cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda-time.jar:jollyday.jar:ejml-VV.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -file test
我需要的是每个片段的句子解析。问题是片段可以有多个句子,输出xml将所有句子放在一起,所以我不知道哪些句子属于什么片段。我可以在不同的句子之间添加一个分隔词,但我认为必须有一个内置的能力来显示分离。
答案 0 :(得分:0)
有一个参数-fileList,它以逗号分隔的文件串作为输入。
示例:
java -cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda-time.jar:jollyday.jar:ejml-VV.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -fileList=file1.txt,file2.txt,file3.txt
有关详细信息,请查看SentimentPipeline.java(edu.stanford.nlp.sentiment)。