我正在使用python -m spacy train
命令行工具来训练NER模型。我使用gold.docs_to_json
将带注释的文档转换为JSON-serializable format。
命令行训练工具同时使用训练集和开发集。我不确定命令行工具会为我提供哪些帮助来管理Train / dev拆分。
我认为问题(1)和(2)的答案均为“否”,但我想再次确认。
从玩法的角度来看,即使您要针对固定数量的迭代训练生产模型,也总是必须传递一个非空的开发集。现在,我只是传递训练数据的副本,但是看起来很奇怪,所以我想知道是否还有其他程序需要丢失。
spaCy培训文档主要讨论编写自己的迭代循环。我已经做了足够的工作,如果我编写自己的代码,我可以确保可以完成上述任何工作,但是对于这些基本的培训操作,我宁愿不编写代码,而仅对所有内容使用命令行工具。