我正在使用随机森林分析数据集,试图预测某个分类的值(高,中低)。小组之间保持平衡,RF表现良好:
OOB estimate of error rate: 14.39%
Confusion matrix:
High Low Mid class.error
High 104 3 1 0.03703704
Low 16 62 6 0.26190476
Mid 9 3 60 0.16666667
查看重要性时,我发现数据集中的一个参数(“等级”)与其他参数相比具有很大的MeanDecreaseGini(23.03)。 然后,我看了看MDS图,发现OK分类的高/中/低。真正有趣的是,当我根据参数“等级”对点进行着色时,我看到了非常清晰的聚类。
现在我很难理解这些结果。您是否仅因为“ Grade”具有较高的MeanDecreaseGini便会发生这种情况,还是实际上是我的数据集的功能?如果是这样,如何确定导致聚类的参数?