我有Penn树库(s表达式)格式的中国选区树库,我想获取conll格式数据。我知道可以使用此命令由StanfordCoreNLP转换英语数据
java -mx1g edu.stanford.nlp.trees.ud.UniversalDependenciesConverter -treeFile treebank > treebank.conllu
我也知道StanfordCoreNLP支持使用命令选择中文语言模型
java -mx3g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-chinese.properties -file chinese.txt -outputFormat text
当我使用命令
java -mx3g -cp "*" edu.stanford.nlp.trees.ud.UniversalDependenciesConverter -props StanfordCoreNLP-chinese.properties -treeFile chtb_0001.nw > chtb_0001_nw.conllu
没有任何变化,在这种情况下,StanfordCoreNLP工具仍选择英语模型而不是中文模型。我无法从StanfordCoreNLP主页获得更多详细信息。所以我想从StackoverFlow获得帮助。
答案 0 :(得分:1)
我认为这会起作用:
java -Xmx1g edu.stanford.nlp.trees.international.pennchinese.UniversalChineseGrammaticalStructure -treeFile ctb_example.txt -checkConnected -basic -keepPunct -conllx