我在哪里可以获得CoNLL-X培训数据?

时间:2016-05-19 08:23:41

标签: nlp stanford-nlp dependency-parsing

我正在尝试训练斯坦福神经网络依赖性解析器来检查短语相似性。

我尝试的方式是:

java edu.stanford.nlp.parser.nndep.DependencyParser -trainFile trainPath -devFile devPath -embedFile wordEmbeddingFile -embeddingSize wordEmbeddingDimensionality -model modelOutputFile.txt.gz

我得到的错误是:

Train File: C:\Users\rohit\Downloads\CoreNLP-master\CoreNLP-master\data\edu\stanford\nlp\parser\trees\en-onetree.txt
Dev File: null
Model File: modelOutputFile.txt.gz
Embedding File: null
Pre-trained Model File: null
################### Train
#Trees: 1
0 tree(s) are illegal (0.00%).
1 tree(s) are legal but have multiple roots (100.00%).
0 tree(s) are legal but not projective (0.00%).
###################
#Word: 3
#POS:3
#Label: 2
###################
#Transitions: 3
#Labels: 1
ROOTLABEL: null
Random generator initialized with seed 1459831358061
Exception in thread "main" java.lang.NullPointerException
    at edu.stanford.nlp.parser.nndep.Util.scaling(Util.java:49)
    at edu.stanford.nlp.parser.nndep.DependencyParser.readEmbedFile.  (DependencyParser.java:636)
    at edu.stanford.nlp.parser.nndep.DependencyParser.setupClassifierForTraining(DependencyParser.java:787)
    at edu.stanford.nlp.parser.nndep.DependencyParser.train(DependencyParser.java:676)
    at edu.stanford.nlp.parser.nndep.DependencyParser.main(DependencyParser.java:1247)

代码中嵌入的帮助表明培训文件应该是 - “CoNLL-X格式的培训树库的路径”。

有谁知道我在哪里可以找到一些CoNLL-X训练数据来训练? 我提供了培训文件但没有嵌入文件并得到了这个错误。 我的猜测是,如果我给它可能有效的嵌入文件。

请详细说明哪个培训档案&嵌入文件我应该使用,我可以在哪里找到它们。

1 个答案:

答案 0 :(得分:2)

CoNLL-X树库

您可以免费获得丹麦语,荷兰语,葡萄牙语和瑞典语的培训数据here。对于其他语言,您可能需要从LDC许可树库,不幸的是(该页面上的许多语言的详细信息)。

Universal Dependencies采用CoNLL-U格式,通常可以通过一些工作转换为CoNLL-X格式。

最后,在this page上有一大堆树库及其可用性。如果它们尚未采用该格式,您应该能够将此列表中的许多依赖关系树库转换为CoNLL-X格式。

培训斯坦福神经网络依赖关系解析器

来自this page:嵌入文件是可选的,但树库不是。要使用的最佳树库和嵌入文件取决于您要解析的语言和文本类型。理想情况下,您将在您尝试解析的域/类型中尽可能多地训练数据。