标签: nlp dataset spacy
spaCy是否公开为其预训练的依赖关系分析器(en_core_web_sm / md / lg)公开发布开发/测试数据,如果可以,可以在哪里访问?
对于上下文:我正在尝试在一种特定的句子上测量经过预训练的解析器的准确性(不仅仅是像Penn Treebank这样的整个树库),因此我需要开发人员使用带有金色标记的句子或测试集,以便我可以识别句子的类型并进行评估。我将使用另一个依赖树库,例如通用依赖树库,但是不幸的是,注释方案略有不同。
答案 0 :(得分:0)
它是OntoNotes 5,如spaCy models repo at Github所述。