我正在尝试使用Stanford NN Dependency Parser解析原始的中文文本文件(每个句子一行)。
对于英文文本,我能够使用'ssplit'注释器和'ssplit.eolonly'选项将文档拆分成句子,但是这个选项似乎对中文失败了。解析适用于具有单行的输入文件,但是如果有多行,则将它们视为单个句子。
是否有一个简单的解决方案让'ssplit.eolonly'与中文合作?我运行的命令如下:
java edu.stanford.nlp.pipeline.StanfordCoreNLP \
-annotators segment,ssplit,pos,depparse \
-customAnnotatorClass.segment edu.stanford.nlp.pipeline.ChineseSegmenterAnnotator \
-segment.model edu/stanford/nlp/models/segmenter/chinese/ctb.gz \
-segment.sighanCorporaDict edu/stanford/nlp/models/segmenter/chinese \
-segment.serDictionary edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz \
-segment.sighanPostProcessing true \
-ssplit.eolonly \
-pos.model edu/stanford/nlp/models/pos-tagger/chinese-distsim/chinese-distsim.tagger \
-depparse.model edu/stanford/nlp/models/parser/nndep/CTB_CoNLL_params.txt.gz \
-depparse.language Chinese \
-file in -outputDirectory out
答案 0 :(得分:0)
不幸的是,现在还不是(2015年4月)。当前的分段器不支持保留行信息。在某些方面这将是一件好事....