我有两个功能集:f1和f2。数据大小为140万。仅使用f1,我训练随机森林并在测试集上进行测试。准确率为79%。然后我只使用了f2并在同一个测试集上进行了测试。准确率为79.5%。但是,当我将f1和f2合并为一个特征向量并运行相同的实验时。准确率为80.4%。
然后我跑了这个测试。我首先只使用f1并训练随机森林并在测试集上进行测试。我收集了无法正确分类的数据,称为S1。然后我只使用f2并将收集的数据集S1拆分为训练和测试集。该测试集的准确度为86%。
从我的实验结果来看,谁能告诉我出了什么问题?当我合并功能集f1和f2时,为什么精度会降低?
答案 0 :(得分:1)
你可能有过度拟合(方差)。我建议你尝试在F1unionF2上运行特征选择算法,以获得F1和F2的一部分特征。您可以在Stanford cs229 notes
中详细了解该主题第4讲描述偏差与方差,第5讲描述模型选择,包括特征选择。 您还可以在YouTube上观看cs229的视频讲座,在课程中观看另一个版本。