r中随机森林的阶级重要性

时间:2015-03-17 12:01:23

标签: r classification random-forest

我在R中使用randomForest pkg来预测基于11个数值预测变量的二进制类。在HitMiss两个班级中,班级Hit更为重要,即我想了解正确预测Hit的次数。

有没有办法让Hit更重要的是训练随机森林?目前训练有素的随机森林只能正确预测7%的命中案例,并且肯定会有所改善。

1 个答案:

答案 0 :(得分:-1)

更重要?我不知道如何告诉任何算法“我这次不开玩笑:我希望这个分析准确无误。”

你总是在与偏见战争相抗衡。如果过度提高训练精度,则存在过度拟合的风险。

您可以通过改变预测变量随机样本的大小来调整随机森林。如果您有m个预测变量,则对于树中的分割数,随机森林的建议为p = m ^ 1/2。您还可以改变树木的数量。针对不同的p值绘制测试分类错误与#树的关系,以了解您的工作方式。

您还可以尝试其他算法,例如gbm(广义提升回归模型)或support vector machines

绘图时数据如何显示?当你在散点图中看到它们时,任何明显的团体会向你跳出来吗?

无论算法如何,我都建议您对模型进行n次验证。