在文档中,我将看到使用params调用java类:
java edu.stanford.nlp.parser.nndep.DependencyParser -tlp edu.stanford.nlp.trees.international.pennchinese.ChineseTreebankLanguagePack -trainFile chinese / train.conll -devFile chinese / dev.conll -embedFile chinese / embeddings.txt -embeddingSize 50-model nndep.chinese.model.txt.gz
我可以在哪里找到这3个文件的规范?
chinese / train.conll - 这是火车文件(规范http://ilk.uvt.nl/conll/#dataformat)
chinese / dev.conll - 它是什么?
chinese / embeddings.txt - 它是什么?
答案 0 :(得分:1)
chinese / train.conll,chinese / dev.conll:这些是CoNLL 2006格式的培训/开发文件,如论文第4.1节所述:http://cs.stanford.edu/~danqi/papers/emnlp2014.pdf。 (一般情况下,我们无权将数据集分发给其他人。)
chinese / embeddings.txt:这些是使用word2vec训练的文字嵌入,如同一篇文章第3.2节所述。