使用斯坦福解析器处理许多文本

时间:2014-01-23 12:18:59

标签: stanford-nlp

我正在尝试使用stanford解析器处理许多文本片段。我使用此命令输出到xml

java -cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda-time.jar:jollyday.jar:ejml-VV.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -file test

我需要的是每个片段的句子解析。问题是片段可以有多个句子,输出xml将所有句子放在一起,所以我不知道哪些句子属于什么片段。我可以在不同的句子之间添加一个分隔词,但我认为必须有一个内置的能力来显示分离。

1 个答案:

答案 0 :(得分:0)

有一个参数-fileList,它以逗号分隔的文件串作为输入。

示例:

java -cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda-time.jar:jollyday.jar:ejml-VV.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -fileList=file1.txt,file2.txt,file3.txt

有关详细信息,请查看SentimentPipeline.java(edu.stanford.nlp.sentiment)。