重新训练斯坦福NER所需的训练数据大小

时间:2015-01-15 19:57:41

标签: stanford-nlp

需要多少培训数据(最低)才能可靠地重新培训斯坦福NER模型?如果我们生成手动注释的训练数据,那么一万个句子就足以训练模型来提取实体 - 组织名称和技术名称吗?

2 个答案:

答案 0 :(得分:0)

对于再培训NER模型,没有明确的最低训练数据量;一般而言,准确性将继续提高您提供的数据。我的印象 - 我应该强调,这只是我个人的本能 - 是10k语句可能或多或少足以培养一个体面的NER系统。例如,CoNLL 2003共享任务训练了15k句(http://www.cnts.ua.ac.be/conll2003/pdf/14247tjo.pdf)。

答案 1 :(得分:0)

所需数据量不是简单的计算。您必须考虑培训数据的多样性以及目标数据的多样性。我们对CoNLL 2003数据进行了一些实验,发现如果我们选择标记/句子进行仔细训练,则使用AllenNLP工具包(数据的1/6)可以获得90%的准确性。从本质上讲,这意味着需要训练几个句子并查看哪些标记最不确定,然后将包含这些标记的句子添加到训练集中并重复。

这意味着您不应期望10K句子是某种神奇的数字。如果您要从句子中选择大量的句子,那么最好选择多种句子。