我必须制作一个好的基于NER CRF的模型。我的目标是一个庞大的域名,我所针对的课程总数不是17个。我还制作了一套很好的功能集(austen.prop),通过大量实验可以为我工作。 NER没有产生好的结果。我需要知道 NER 的限制,这是基于训练数据大小等的CRF。
我经常搜索,但到目前为止,我无法找到制作训练数据时应遵循的惯例。
(注意:我完全知道如何制作模型并使用它,我只需要知道是否有任何约定,每个目标类的某些百分比应该存在等等。)
如果有人可以指导我,我会感谢你。
答案 0 :(得分:0)
对于英语,标准的训练数据集是CoNLL 2003,它有4个类别(ORG,PERSON,LOCATION,MISC)的15,000个标记句子。