我在R中使用randomForest
pkg来预测基于11个数值预测变量的二进制类。在Hit
或Miss
两个班级中,班级Hit
更为重要,即我想了解正确预测Hit
的次数。
有没有办法让Hit
更重要的是训练随机森林?目前训练有素的随机森林只能正确预测7%的命中案例,并且肯定会有所改善。
答案 0 :(得分:-1)
更重要?我不知道如何告诉任何算法“我这次不开玩笑:我希望这个分析准确无误。”
你总是在与偏见战争相抗衡。如果过度提高训练精度,则存在过度拟合的风险。
您可以通过改变预测变量随机样本的大小来调整随机森林。如果您有m个预测变量,则对于树中的分割数,随机森林的建议为p = m ^ 1/2。您还可以改变树木的数量。针对不同的p值绘制测试分类错误与#树的关系,以了解您的工作方式。
您还可以尝试其他算法,例如gbm(广义提升回归模型)或support vector machines
绘图时数据如何显示?当你在散点图中看到它们时,任何明显的团体会向你跳出来吗?
无论算法如何,我都建议您对模型进行n次验证。