Question

我正在尝试使用Stanford NN Dependency Parser解析原始的中文文本文件（每个句子一行）。

对于英文文本，我能够使用'ssplit'注释器和'ssplit.eolonly'选项将文档拆分成句子，但是这个选项似乎对中文失败了。解析适用于具有单行的输入文件，但是如果有多行，则将它们视为单个句子。

是否有一个简单的解决方案让'ssplit.eolonly'与中文合作？我运行的命令如下：

java edu.stanford.nlp.pipeline.StanfordCoreNLP \
-annotators segment,ssplit,pos,depparse \
-customAnnotatorClass.segment edu.stanford.nlp.pipeline.ChineseSegmenterAnnotator \
-segment.model edu/stanford/nlp/models/segmenter/chinese/ctb.gz \
-segment.sighanCorporaDict edu/stanford/nlp/models/segmenter/chinese \
-segment.serDictionary edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz \
-segment.sighanPostProcessing true \
-ssplit.eolonly \
-pos.model edu/stanford/nlp/models/pos-tagger/chinese-distsim/chinese-distsim.tagger \
-depparse.model edu/stanford/nlp/models/parser/nndep/CTB_CoNLL_params.txt.gz \
-depparse.language Chinese \
-file in -outputDirectory out

Answer 1

不幸的是，现在还不是（2015年4月）。当前的分段器不支持保留行信息。在某些方面这将是一件好事....

只有中文文本

1 个答案: