斯坦福NNDep解析器:使用的功能

时间:2015-11-18 18:46:54

标签: nlp stanford-nlp

关于斯坦福大学的神经网络依赖解析器哪些特性在训练和测试阶段使用?实际上,CONLL ˣ格式化数据集中的哪些列可以用 _ 代替,而解析器在训练时不会失去任何准确性?哪些列永远不会被读取?

当然IDFORMHEAD(列# 1 2 & 7 )是必须的,因为最有可能是U/C-POSTAG(# 4 )和DEPREL(# 8 )。但是列LEMMA(X)-POSTAGFEATS(# 3 5 & 6 )?他们在训练时是否有帮助,或者树库中是否包含任何信息与解析器无关?

1 个答案:

答案 0 :(得分:3)

在当前的实现中,我们只使用以下字段。我的列索引从1开始。

  • FORM(第2栏)
  • UPOSTAG(第4栏)[^ 1]
  • HEAD(第7栏)
  • DEPREL(第8栏)

[^ 1]:如果使用粗略的词性标签(-cPOS)进行解析,我们会先阅读第5列。

其他所有内容都可以为null,只要您不破坏CoNLL格式(即在空列中仍然包含_)。

详细了解我们在此处阅读的内容:edu.stanford.nlp.parser.nndep.Util.loadConllFile。注意这些对于CoNLL-X和CoNLL-U表示都是相同的。