增加训练样例会降低最大熵分类器的准确性

时间:2016-11-02 22:47:02

标签: machine-learning nlp text-classification

我正在使用MaxEnt词性标注器来对语言语料库进行pos标签分类。我从理论上知道,增加训练样例通常应该提高分类准确性。但是,我观察到,在我的情况下,如果我将3/4数据用于训练并休息用于测试,则标记器给出最大f测量值。如果我将训练数据大小增加到整个语料库的85或90℅,那么准确度会降低。即使将训练数据大小减小到全语料库的50℅,精度也会降低。

我想知道通过增加训练样例来降低准确性的可能原因。

1 个答案:

答案 0 :(得分:0)

我怀疑在简化的测试集中,您选择了极端样本并将更多的常规样本添加到训练集中,然后您减少了模型知道的测试样本的数量。