关于斯坦福大学的神经网络依赖解析器*̦哪些特性在训练和测试阶段使用?实际上,CONLL ᶸ ˣ格式化数据集中的哪些列可以用 _ 代替,而解析器在训练时不会失去任何准确性?哪些列永远不会被读取?
当然ID
,FORM
和HEAD
(列# 1 , 2 & 7 )是必须的,因为最有可能是U/C-POSTAG
(# 4 )和DEPREL
(# 8 )。但是列LEMMA
,(X)-POSTAG
和FEATS
(# 3 , 5 & 6 )?他们在训练时是否有帮助,或者树库中是否包含任何信息与解析器无关?
答案 0 :(得分:3)
在当前的实现中,我们只使用以下字段。我的列索引从1开始。
FORM
(第2栏)UPOSTAG
(第4栏)[^ 1] HEAD
(第7栏)DEPREL
(第8栏) [^ 1]:如果使用粗略的词性标签(-cPOS
)进行解析,我们会先阅读第5列。
其他所有内容都可以为null,只要您不破坏CoNLL格式(即在空列中仍然包含_
)。
详细了解我们在此处阅读的内容:edu.stanford.nlp.parser.nndep.Util.loadConllFile
。注意这些对于CoNLL-X和CoNLL-U表示都是相同的。