在weka中使用该模型的结果很奇怪

时间:2013-05-23 13:05:02

标签: java weka

我正在使用Weka Gui - Explorer和 我想根据班级{男,女}对我的数据进行分类。 我使用MultiBoostAB分类器和REPTree分类器作为基础。 我正在尝试使用训练集(557个实例)来评估分类器的准确性

然后是具有约300个属性的测试集(200个实例)。准确率为83.5% - 167个正确分类的实例 超过200,kappa统计为0,67。我保存了这个模型,并用它来预测

其他未知数据的标签(男性或女性)得到几乎相同的好结果。 然后我将训练集的大小增加到1000个实例以查看是否 我可以提高分类器的准确率。我得到了以下结果:

  • 运行360个实例的测试集 - > 87.0423%正确分类的实例和kappa统计0,7335
  • 运行200个实例的测试集 - > 59%正确分类的实例和kappa统计0,18

(它预测我的大部分数据为女性) 当我增加训练集的大小时,为什么我的模型会变差?

1 个答案:

答案 0 :(得分:1)

嗯,如果没有真正查看和分析您的训练数据,这真的很难说。

我的第一个猜测是你添加到训练集的额外443个实例非常不同,因此分类器学习了一个完全不同的模型。

如果仅在443个实例上训练模型会发生什么?如果您的测试集的准确性更差,您就会知道您的训练数据可能不是最好的概括。