只有中文文本

时间:2015-02-05 06:29:56

标签: stanford-nlp

我正在尝试使用Stanford NN Dependency Parser解析原始的中文文本文件(每个句子一行)。

对于英文文本,我能够使用'ssplit'注释器和'ssplit.eolonly'选项将文档拆分成句子,但是这个选项似乎对中文失败了。解析适用于具有单行的输入文件,但是如果有多行,则将它们视为单个句子。

是否有一个简单的解决方案让'ssplit.eolonly'与中文合作?我运行的命令如下:

java edu.stanford.nlp.pipeline.StanfordCoreNLP \
-annotators segment,ssplit,pos,depparse \
-customAnnotatorClass.segment edu.stanford.nlp.pipeline.ChineseSegmenterAnnotator \
-segment.model edu/stanford/nlp/models/segmenter/chinese/ctb.gz \
-segment.sighanCorporaDict edu/stanford/nlp/models/segmenter/chinese \
-segment.serDictionary edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz \
-segment.sighanPostProcessing true \
-ssplit.eolonly \
-pos.model edu/stanford/nlp/models/pos-tagger/chinese-distsim/chinese-distsim.tagger \
-depparse.model edu/stanford/nlp/models/parser/nndep/CTB_CoNLL_params.txt.gz \
-depparse.language Chinese \
-file in -outputDirectory out

1 个答案:

答案 0 :(得分:0)

不幸的是,现在还不是(2015年4月)。当前的分段器不支持保留行信息。在某些方面这将是一件好事....