应用错误收集

斯坦福NNDep解析器：使用的功能

时间：2015-11-18 18:46:54

标签： nlp stanford-nlp

关于斯坦福大学的神经网络依赖解析器*̦哪些特性在训练和测试阶段使用？实际上，CONLL ᶸ ˣ格式化数据集中的哪些列可以用 _ 代替，而解析器在训练时不会失去任何准确性？哪些列永远不会被读取？

当然ID，FORM和HEAD（列＃ 1 ， 2 ＆amp; 7 ）是必须的，因为最有可能是U/C-POSTAG（＃ 4 ）和DEPREL（＃ 8 ）。但是列LEMMA，(X)-POSTAG和FEATS（＃ 3 ， 5 ＆amp; 6 ）？他们在训练时是否有帮助，或者树库中是否包含任何信息与解析器无关？

1 个答案:

答案 0 :(得分：3)

在当前的实现中，我们只使用以下字段。我的列索引从1开始。

FORM（第2栏）
UPOSTAG（第4栏）[^ 1]
HEAD（第7栏）
DEPREL（第8栏）

[^ 1]：如果使用粗略的词性标签（-cPOS）进行解析，我们会先阅读第5列。

其他所有内容都可以为null，只要您不破坏CoNLL格式（即在空列中仍然包含_）。

详细了解我们在此处阅读的内容：edu.stanford.nlp.parser.nndep.Util.loadConllFile。注意这些对于CoNLL-X和CoNLL-U表示都是相同的。