应用错误收集

任一特征集的分类都很好，但组合特征集很糟糕

时间：2014-05-28 17:31:11

标签： matlab machine-learning feature-extraction

我有两个功能集：f1和f2。数据大小为140万。仅使用f1，我训练随机森林并在测试集上进行测试。准确率为79％。然后我只使用了f2并在同一个测试集上进行了测试。准确率为79.5％。但是，当我将f1和f2合并为一个特征向量并运行相同的实验时。准确率为80.4％。

然后我跑了这个测试。我首先只使用f1并训练随机森林并在测试集上进行测试。我收集了无法正确分类的数据，称为S1。然后我只使用f2并将收集的数据集S1拆分为训练和测试集。该测试集的准确度为86％。

从我的实验结果来看，谁能告诉我出了什么问题？当我合并功能集f1和f2时，为什么精度会降低？

1 个答案:

答案 0 :(得分：1)

你可能有过度拟合（方差）。我建议你尝试在F1unionF2上运行特征选择算法，以获得F1和F2的一部分特征。您可以在Stanford cs229 notes

中详细了解该主题

第4讲描述偏差与方差，第5讲描述模型选择，包括特征选择。您还可以在YouTube上观看cs229的视频讲座，在课程中观看另一个版本。