应用错误收集

增加训练样例会降低最大熵分类器的准确性

时间：2016-11-02 22:47:02

标签： machine-learning nlp text-classification

我正在使用MaxEnt词性标注器来对语言语料库进行pos标签分类。我从理论上知道，增加训练样例通常应该提高分类准确性。但是，我观察到，在我的情况下，如果我将3/4数据用于训练并休息用于测试，则标记器给出最大f测量值。如果我将训练数据大小增加到整个语料库的85或90℅，那么准确度会降低。即使将训练数据大小减小到全语料库的50℅，精度也会降低。

我想知道通过增加训练样例来降低准确性的可能原因。

1 个答案:

答案 0 :(得分：0)

我怀疑在简化的测试集中，您选择了极端样本并将更多的常规样本添加到训练集中，然后您减少了模型知道的测试样本的数量。

增量最大熵分类器
Python NLTK最大熵分类器错误
用于大数据集的最大熵分类器
NLTK最大熵分类器原始分数
增加训练样例会降低最大熵分类器的准确性
使用斯坦福分类器的最大熵
测试最大熵分类器
验证准确性不会增加培训ResNet50
最大熵（最大）分类器的可重现结果
偏差会降低精度

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？