我尝试将Random Forest放入我的数据集中,以便在Control和Alzheimer组之间进行分类。在第一次尝试中,我得到了左OOB错误图,在第二次尝试中我减少了数据集中的变量数,我得到了右侧OOB错误图。我的问题是比较这两个图,更好的OOB图是什么?如果Alzhemier和Control的类错误接近森林的OOB曲线?如果是,为什么?
答案 0 :(得分:0)
右侧的图表有更好的OOB错误。我假设阿尔茨海默病和对照线也是OOB错误,但是针对特定类别计算。通过引导一小部分样本来构造随机森林预测器,在算法的每次迭代中对未被选择的样本(在袋子外)计算OOB误差。因此,OOB错误是在Breinman描述的情况下构建模型时对性能的估计,而较小的错误当然更好。
“阿尔茨海默病和对照的类错误应该更接近森林的OOB曲线吗?”这取决于你的模型在预测每个班级时的表现。如果两个类的分类错误相似,那么OOB错误将接近两者。