Stanford Parser - 列车输入规范

时间:2014-12-27 20:45:02

标签: java stanford-nlp

在文档中,我将看到使用params调用java类:

  

java edu.stanford.nlp.parser.nndep.DependencyParser -tlp   edu.stanford.nlp.trees.international.pennchinese.ChineseTreebankLanguagePack   -trainFile chinese / train.conll -devFile chinese / dev.conll -embedFile chinese / embeddings.txt -embeddingSize 50-model   nndep.chinese.model.txt.gz

我可以在哪里找到这3个文件的规范?

chinese / train.conll - 这是火车文件(规范http://ilk.uvt.nl/conll/#dataformat

chinese / dev.conll - 它是什么?

chinese / embeddings.txt - 它是什么?

1 个答案:

答案 0 :(得分:1)

chinese / train.conll,chinese / dev.conll:这些是CoNLL 2006格式的培训/开发文件,如论文第4.1节所述:http://cs.stanford.edu/~danqi/papers/emnlp2014.pdf。 (一般情况下,我们无权将数据集分发给其他人。)

chinese / embeddings.txt:这些是使用word2vec训练的文字嵌入,如同一篇文章第3.2节所述。