Question

我正在尝试使用stanford解析器处理许多文本片段。我使用此命令输出到xml

java -cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda-time.jar:jollyday.jar:ejml-VV.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -file test

我需要的是每个片段的句子解析。问题是片段可以有多个句子，输出xml将所有句子放在一起，所以我不知道哪些句子属于什么片段。我可以在不同的句子之间添加一个分隔词，但我认为必须有一个内置的能力来显示分离。

Answer 1

有一个参数-fileList，它以逗号分隔的文件串作为输入。

示例：

java -cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda-time.jar:jollyday.jar:ejml-VV.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -fileList=file1.txt,file2.txt,file3.txt

有关详细信息，请查看SentimentPipeline.java（edu.stanford.nlp.sentiment）。

使用斯坦福解析器处理许多文本

1 个答案: